الحساب هو القدرة على التعامل مع الأرقام والأرقام. يبحث هذا المشروع عن استراتيجيات مختلفة لنماذج اللغة للتنبؤ بالأرقام. يتم تدريب النماذج واختبارها على مجموعة بيانات سريرية وعلمية.
Georgios Spithourakis و Sebastian Riedel. الحساب لنماذج اللغة: تقييم وتحسين قدرتها على التنبؤ بالأرقام ، ACL 2018
PIP تثبيت جميلة oup4
PIP تثبيت LXML (لنظام التشغيل Windows ، تنزيل من http://www.lfd.uci.edu/~gohlke/pythonlibs/)
PIP تثبيت spacy (قد تحتاج بالإضافة إلى ذلك: conda تثبيت libgcc)
Python -M Spacy Download en
تضمينات القفازات من: https://nlp.stanford.edu/projects/glove/
latexml.download_arxmliv.py
[DataSet] .extract_to_json.py
latexml.xml_to_text.py
json_to_tsv.py
tsv_to_annotated.py
[DataSet] .tables_to_procound.py
tables_procound_to_annotated.py
dataset.common.join_all.py
preproc.build_vocab.py
preproc.bucketing.py
Python lm_jtr.py
-data [سريري | arxmliv]
-TRAIR Number_of_epochs
-دفعة batch_size
--- Config [A1 | A2 | A3 | A4 | B1 | B2 | C1]
-لا اختبار # لقمع تقييم وقت الاختبار
-لا تتواجد # لقمع التشخيصات (المؤامرات ، قيم intermediata ، إلخ)
-تحميل A1_2018_02_17_16_50_13_clinical
على سبيل المثال
Python lm_jtr.py-data arxmliv-no-inspect-no-test-Train 500-Patch 50-Config A1 # Train
Python lm_jtr.py-data arxmliv-no-inspect-تحميل A1_2018_02_18_11_55_11_arxmliv # نموذج اختبار
Python lm_jtr.py-data arxmliv-no-test-تحميل A1_2018_02_18_11_55_11_arxmliv # احصل على مؤامرات وغيرها من التشخيصات
A1: softmax
A2: softmax+rnn
A3: H-SoftMax
A4: H-SoftMax+RNN
B1: D-Rnn
B2: موغ
C1: مزيج