-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathREADME.txt
28 lines (22 loc) · 1.51 KB
/
README.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Данная программа является реализацией алгоритма выделения ключевых понятий, описанного в выпускной квалификационной работе:
"Автоматическое извлечение ключевых понятий из текста с учетом иерархической структуры предметной области"
Программа принимает на вход:
- Документ под названием "target", который должен быть расположен в корневой директории данной программы. Это документ,
из которого надо выделить ключевые понятия
- Разбитый по темам корпус текстов, расположенный в директории "clustered_corpus". Сама директория "clustered_corpus"
должна быть распложена в корневой директории данной программы. Внутри директории должны располагаться папки, каждая
из которых содержит текстовые файлы, принадлежащие одной теме.
На выходе программа выдает ранжированный список кандидатов в ключевые понятия. Каждому кандидату соответсвует оценка
его релевантности - Rank. Для каждого кандидата в этой таблице содержатся так же значения признаков TF, IDF, CU и
значения DF на всех темах корпуса "clustered_corpus".
Для запуска данной программы потребуются:
- Python интерпретатор (тестирование проводилось на версии 3.5.0)
- Библиотеки nltk и prettytable
Библиотеки можно установить набором команд:
pip install nltk
pip install prettytable
Так же, необходимо запустить установочный скрипт Installer.py, который скачает метаданные для библиотеки nltk. Из директории проекта
запуск будет выглядить так:
python Installer.py
После этого можно запустить данную программу. Из директории проекта запуск будет выглядить так:
python Main.py