Получение данных по xml API Яндекса (топ 10 юрл из выдачи), парсинг статей с топа и получение ngram
Для тех кто не понимает зачем нужны ngram = они используются в тз для копирайтера вместе с LSI для улучшения тектового ранжирования в поисковых системах.
Демонстрация работы с API XML яндекса https://xml.yandex.ru/
Для работы скрипта нужны лимиты XML
В https://xml.yandex.ru/settings/ находим строку вида https://yandex.ru/search/xml?user=login&key=03.39566772:381454f4e1e690d25288aca7
Редактируем файл ini.txt
Первая строка = login
Вторая key вида = 03.39566772:381454f4e1e690d25288aca7
Третья = нужный нам запрос.
Рекомендация = для редактирования использовать UTF-8 (Notepad++ например)
После получения топ 10 выдачи скрипт удаляет стоп url и парсит статьи из оставшихся (только основной текст статей).
После парсинга лематизирует с помощью Mystem https://yandex.ru/dev/mystem/ (для этого скачайте файл mystem.exe и добавьте в папку с проектом)
И вычисляет топ ngram и записывает в файл название-запроса.csv (в UTF-8).
Так как Майкрософт по умолчанию использует windows1251 при двойном клике на csv файл может открываться с кракозябрами. Чтобы этого не происходило или открывайте вначале Excel
, а далее через пунк Открыть (в таком случае будет выбор кодировки) или изменить кодировку csv в python скрипте.