Die Zahl der Zahlen ist die Fähigkeit, mit Zahlen und Ziffern umzugehen. Dieses Projekt untersucht verschiedene Strategien für Sprachmodelle zur Vorhersage von Ziffern. Modelle werden in einem klinischen und wissenschaftlichen Datensatz ausgebildet und getestet.
Georgios Spithourakis und Sebastian Riedel. Zahlen für Sprachmodelle: Bewertung und Verbesserung ihrer Fähigkeit zur Vorhersage von Zahlen, ACL 2018
PIP Installieren Sie BeautifulSoup4
PIP Installation LXML (für Windows, herunterladen von http://www.lfd.uci.edu/~gohlke/pythonlibs/)
PIP Installieren Sie Spacy (könnte zusätzlich erforderlich sein: Conda Install LIBGCC)
Python -m Spacy Download en
Handschuhbettungen von: https://nlp.stanford.edu/projects/glove/
latexml.download_arxmliv.py
[Dataset] .extract_to_json.py
latexml.xml_to_text.py
JSON_TO_TSV.PY
tsv_to_annotated.py
[Dataset] .tables_to_processed.py
tables_processed_to_annotated.py
dataSet.common.join_all.py
precroc.build_vocab.py
precoc.bucketing.py
Python lm_jtr.py
-Data [klinisch | arxmliv]
-DRING NUMBER_OF_EPOCHS
-Batch batch_size
-Config [A1 | A2 | A3 | A4 | B1 | B2 | C1] # Strategie zur Ausgabe von Ziffern (abgeleitet, wenn das Modell geladen ist)
-Nicht-Test # zur Unterdrückung der Testzeitbewertung
-No-Inspect # zur Unterdrückung der Diagnostik (Diagramme, Zwischenwerte usw.)
-Load A1_2018_02_17_16_50_13_Clinical
z.B
python lm_jtr.py--data arxmliv-no-inspect-no-test --train 500-Batch 50-Config A1 # Zugmodell
python lm_jtr.py--data arxmliv --no-i-isinspect--load a1_2018_02_18_11_55_11_arxmliv # Testmodell
python lm_jtr.py--data arxmliv-no-test-load a1_2018_02_18_11_55_11_arxmliv # Handeln und andere Diagnostik
A1: Softmax
A2: Softmax+RNN
A3: H-SOFTMAX
A4: H-SOFTMAX+RNN
B1: D-RNN
B2: Mog
C1: Kombination