A numeracia é a capacidade de lidar com números e numerais. Este projeto investiga várias estratégias para modelos de idiomas prever numerais. Os modelos são treinados e testados em um conjunto de dados clínico e científico.
Georgios Spithourakis e Sebastian Riedel. Numeracia para modelos de idiomas: Avaliando e melhorando sua capacidade de prever números, ACL 2018
PIP Install BeautifulSoup4
pip install lxml (para windows, faça o download de http://www.lfd.uci.edu/~gohlke/pythonlibs/)
PIP Instale Spacy (pode adicionalmente precisar: instalar conda libgcc)
Python -m Spacy Download pt
INCLIMENTAS DE LOVA DE: https://nlp.stanford.edu/projects/glove/
LATEXML.DOWNLOAD_ARXMLIV.PY
[DataSet] .extract_to_json.py
LATEXML.XML_TO_TEXT.PY
json_to_tsv.py
tsv_to_annotated.py
[DataSet] .tables_to_processed.py
Tables_processed_to_annotated.py
DataSet.common.join_all.py
preproc.build_vocab.py
preproc.bucketing.py
python lm_jtr.py
-Data [Clinical | Arxmliv]
--train número_of_epochs
-Batch Batch_size
-Config [A1 | A2 | A3 | A4 | B1 | B2 | C1] # Estratégia para produzir números (inferidos se o modelo for carregado)
-Não-teste # para suprimir a avaliação do tempo de teste
-Não inspecionar # para suprimir diagnósticos (gráficos, valores intermediários, etc)
--load A1_2018_02_17_16_50_13_clinical
por exemplo
python lm_jtr.py-data arxmliv--no-inspetor--no-test--train 500-Batch 50-Config A1 # Modelo de trem
python lm_jtr.py-data arxmliv--no-inspetor-doad A1_2018_02_18_11_55_11_arxmliv # Modelo de teste
python lm_jtr.py-data arxmliv--no-test --load a1_2018_02_18_11_55_11_arxmliv # Get plotagens e outros diagnósticos
A1: Softmax
A2: softmax+rnn
A3: H-Softmax
A4: H-Softmax+RNN
B1: D-Rnn
B2: MOG
C1: Combinação