Skip to content
/ ngram Public

Получение данных по xml API Яндекса (топ 10 юрл из выдачи), парсинг статей с топа и получение ngram

Notifications You must be signed in to change notification settings

Devvver/ngram

Repository files navigation

ngram

Получение данных по xml API Яндекса (топ 10 юрл из выдачи), парсинг статей с топа и получение ngram
Для тех кто не понимает зачем нужны ngram = они используются в тз для копирайтера вместе с LSI для улучшения тектового ранжирования в поисковых системах.

Демонстрация работы с API XML яндекса https://xml.yandex.ru/
Для работы скрипта нужны лимиты XML
В https://xml.yandex.ru/settings/ находим строку вида https://yandex.ru/search/xml?user=login&key=03.39566772:381454f4e1e690d25288aca7
Редактируем файл ini.txt
Первая строка = login
Вторая key вида = 03.39566772:381454f4e1e690d25288aca7
Третья = нужный нам запрос.
Рекомендация = для редактирования использовать UTF-8 (Notepad++ например)

После получения топ 10 выдачи скрипт удаляет стоп url и парсит статьи из оставшихся (только основной текст статей).
После парсинга лематизирует с помощью Mystem https://yandex.ru/dev/mystem/ (для этого скачайте файл mystem.exe и добавьте в папку с проектом)
И вычисляет топ ngram и записывает в файл название-запроса.csv (в UTF-8).
Так как Майкрософт по умолчанию использует windows1251 при двойном клике на csv файл может открываться с кракозябрами. Чтобы этого не происходило или открывайте вначале Excel , а далее через пунк Открыть (в таком случае будет выбор кодировки) или изменить кодировку csv в python скрипте.

About

Получение данных по xml API Яндекса (топ 10 юрл из выдачи), парсинг статей с топа и получение ngram

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages