La numératie est la possibilité de gérer les chiffres et les chiffres. Ce projet étudie diverses stratégies pour les modèles linguistiques afin de prédire les chiffres. Les modèles sont formés et testés sur un ensemble de données cliniques et scientifiques.
Georgios Spithourakis et Sebastian Riedel. Numératie pour les modèles de langue: évaluation et amélioration de leur capacité à prédire les nombres, ACL 2018
pip install BeautifulSoup4
PIP Install LXML (pour Windows, téléchargez à partir de http://www.lfd.uci.edu/~gohlke/pythonlibs/)
PIP Install Spacy (peut en outre besoin: Conda install libgcc)
Python -m Spacy Download en
Gants incorpores de: https://nlp.stanford.edu/projects/glove/
latexml.download_arxmliv.py
[ensemble de données] .extract_to_json.py
latexml.xml_to_text.py
json_to_tsv.py
tsv_to_annoted.py
[ensemble de données] .tables_to_processed.py
tables_processed_to_annoted.py
dataSet.common.join_all.py
preproc.build_vocab.py
preproc.bucketing.py
python lm_jtr.py
- Data [Clinique | ArxmLiv]
--Train Number_OF_EPOCHS
- Batch Batch_size
- Config [a1 | a2 | a3 | a4 | b1 | b2 | c1] # Stratégie de sortie de chiffres (déduit si le modèle est chargé)
- Pas de test # pour supprimer l'évaluation du temps de test
--No-inspect # Pour supprimer les diagnostics (parcelles, valeurs intermédiaires, etc.)
--load a1_2018_02_17_16_50_13_clinical
par exemple
python lm_jtr.py --data arxmliv --no-inspect --no-test --Train 500 - Batch 50 - Config A1 # Modèle de train
python lm_jtr.py --data arxmliv --no-inspect --load a1_2018_02_18_11_55_11_arxmliv # Modèle de test
python lm_jtr.py --data arxmliv --no-test --load a1_2018_02_18_11_55_11_arxmliv # obtenir des intrigues et autres diagnostics
a1: softmax
A2: Softmax + RNN
A3: H-SoftMax
A4: H-SoftMax + RNN
B1: D-RNN
B2: Mog
C1: combinaison