수치는 숫자와 숫자를 다루는 능력입니다. 이 프로젝트는 언어 모델이 숫자를 예측하기위한 다양한 전략을 조사합니다. 모델은 임상 및 과학 데이터 세트에서 교육 및 테스트됩니다.
Georgios Spithourakis와 Sebastian Riedel. 언어 모델의 수리 : 숫자 예측 능력 평가 및 개선, ACL 2018
PIP 설치 BeautifulSoup4
PIP 설치 LXML (Windows 용, http://www.lfd.uci.edu/~gohlke/pythonlibs/에서 다운로드)
PIP 설치 SPACY (추가로 필요할 수 있습니다 : Conda 설치 LIBGCC)
Python -M Spacy 다운로드 en
장갑 임베딩에서 : https://nlp.stanford.edu/projects/glove/
Latexml.download_arxmliv.py
[DataSet] .Extract_to_json.py
Latexml.xml_to_text.py
json_to_tsv.py
tsv_to_annotated.py
[DataSet] .tables_to_processed.py
tables_processed_to_annotated.py
DataSet.common.join_all.py
preproc.build_vocab.py
preproc.bucketing.py
Python lm_jtr.py
-데이터 [임상 | arxmliv]
-트레인 번호 _of_epochs
-Batch batch_size
-Config [a1 | a2 | a3 | a4 | b1 | b2 | c1] # 숫자를 출력하기위한 전략 (모델이로드 된 경우 추론)
-테스트 시간 평가를 억제하기위한-테스트 #
-진단을 억제하기위한-노인 스펙트 # (플롯, 중간 값 등)
-로드 A1_2018_02_17_16_50_13_CLINICAL
예를 들어
python lm_jtr.py-data arxmliv-no-inspect-no-test-트레인 500-배치 50-코폰 A1 # Train Model
python lm_jtr.py-data arxmliv ---- 노인 스펙트-로드 a1_2018_02_18_11_55_11_arxmliv # 테스트 모델
python lm_jtr.py-data arxmliv-no-test-load a1_2018_02_1111_55_11_arxmliv # plots and 기타 진단
A1 : SoftMax
A2 : SoftMax+RNN
A3 : H-Softmax
A4 : H-SoftMax+RNN
B1 : D-RNN
B2 : 모그
C1 : 조합