Упражнения по программированию для концентрации «Обработка естественного языка» в рамках программы Udacity по искусственному интеллекту Nanograde.
Вам понадобится Python 3.6+ и пакеты, упомянутые в файле requirements.txt
. Вы можете установить их, используя:
pip install -r requirements.txt
Файлы данных для упражнений включены в data/
, но некоторым библиотекам NLP требуются дополнительные данные для выполнения таких задач, как маркировка PoS, лемматизация и т. д. В частности, nltk
выдаст ошибку, если необходимые данные не установлены. Вы можете использовать следующий оператор Python, чтобы открыть загрузчик NLTK и выбрать нужные пакеты для установки:
nltk . download ()
Вы также можете загрузить все доступные пакеты данных NLTK, которые также включают несколько образцов корпусов, но это может занять некоторое время (10+ ГБ).
Чтобы запустить любой файл сценария, используйте:
python < script.py >
Чтобы открыть блокнот, используйте:
jupyter notebook < notebook.ipynb >
Эта работа распространяется по международной лицензии Creative Commons Attribution-NonCommercial-NoDerivatives 4.0. Дополнительную информацию см. в Условиях обслуживания Udacity.