Numerasi adalah kemampuan untuk menangani angka dan angka. Proyek ini menyelidiki berbagai strategi untuk model bahasa untuk memprediksi angka. Model dilatih dan diuji pada dataset klinis dan ilmiah.
Georgios Spithourakis dan Sebastian Riedel. Numeracy untuk Model Bahasa: Mengevaluasi dan Meningkatkan Kemampuan Memprediksi, ACL 2018
Pip Instal Beautifulsoup4
Pip Instal LXML (untuk Windows, unduh dari http://www.lfd.uci.edu/~gohlke/pythonlibs/)
Pip Instal Spacy (mungkin juga perlu: conda instal libgcc)
python -m download spacy en
Sarung Tangan Embeddings Dari: https://nlp.stanford.edu/projects/glove/
latexml.download_arxmliv.py
[dataset] .extract_to_json.py
latexml.xml_to_text.py
json_to_tsv.py
tsv_to_annotated.py
[dataset] .tables_to_processed.py
TABLE_PROCESSED_TO_Annotated.py
dataset.common.join_all.py
preproc.build_vocab.py
preproc.bucketing.py
Python lm_jtr.py
--Data [klinis | arxmliv]
--Train number_of_epochs
-Batch_Size Batch
--config [a1 | a2 | a3 | a4 | b1 | b2 | c1] # strategi untuk mengeluarkan angka (disimpulkan jika model dimuat)
---no-test # untuk menekan evaluasi waktu tes
---no-inpeksi # untuk menekan diagnostik (plot, nilai intermediata, dll)
--load A1_2018_02_17_16_50_13_clinical
misalnya
Python lm_jtr.py --Data arxmliv ---no-incect ---no-test --train 500 --Batch 50 --config A1 # Model kereta
Python lm_jtr.py --Data arxmliv ---no-incecpe--load A1_2018_02_18_11_55_11_arxmliv # Model uji
python lm_jtr.py --Data arxmliv ---no-test--load A1_2018_02_18_11_55_11_arxmliv # Dapatkan plot dan diagnostik lainnya
A1: Softmax
A2: Softmax+RNN
A3: H-Softmax
A4: H-Softmax+RNN
B1: D-RNN
B2: Mog
C1: Kombinasi