Число - это возможность иметь дело с цифрами и цифрами. Этот проект исследует различные стратегии для языковых моделей, чтобы предсказать цифры. Модели обучаются и протестируются на клиническом и научном наборе данных.
Джорджиос Спиторакис и Себастьян Ридель. Числовие для языковых моделей: оценка и улучшение их способности прогнозировать числа, ACL 2018
PIP установить BeautifulSoup4
PIP установить LXML (для Windows, скачать с http://www.lfd.uci.edu/~gohlke/pythonlibs/)
PIP установить SPACY (может быть дополнительно нуждается: Conda Установить LIBGCC)
Python -m Spacy скачать EN
Glove Entgeddings от: https://nlp.stanford.edu/projects/glove/
laterxml.download_arxmliv.py
[DataSet] .extract_to_json.py
laterxml.xml_to_text.py
json_to_tsv.py
tsv_to_annotated.py
[dataSet] .tables_to_processed.py
tables_prococed_to_annotated.py
Dataset.common.join_all.py
preproc.build_vocab.py
preproc.bucketing.py
Python lm_jtr.py
-Data [Clinical | arxmliv]
-Train number_of_epochs
-Переход BATCH_SIZE
-config [a1 | a2 | a3 | a4 | b1 | b2 | c1] # Стратегия для вывода цифр (предполагается, если модель загружена)
---тест # для подавления оценки времени теста
--не недосмотр # для подавления диагностики (графики, значения интермедиаты и т. Д.)
-Загрузка A1_2018_02_17_16_50_13_Clinical
например
Python lm_jtr.py-data arxmliv-no-inspect-no-test-train 500-batch 50-config a1 # модель поезда
Python lm_jtr.py-data arxmliv-no-inspect-load a1_2018_02_18_11_55_11_arxmliv # тестовая модель
Python lm_jtr.py-data arxmliv-no-test-load a1_2018_02_18_11_55_11_arxmliv # Get Графики и другую диагностику
A1: Softmax
A2: Softmax+Rnn
A3: H-Softmax
A4: H-SoftMax+RNN
B1: D-RNN
B2: Mog
C1: Комбинация