数値は、数字と数値を処理する能力です。このプロジェクトは、数字を予測するための言語モデルのさまざまな戦略を調査しています。モデルは、臨床データセットと科学的データセットで訓練およびテストされています。
Georgios SpithourakisとSebastian Riedel。言語モデルの数値:数値を予測する能力の評価と改善、ACL 2018
PIPインストールbeautifulsoup4
PIPインストールLXML(Windows用、http://www.lfd.uci.edu/~gohlke/pythonlibs/からダウンロード)
ピップインストールスペイシー(さらに必要な場合:condaインストールlibgcc)
python -mスペイシーダウンロードen
グローブ埋め込み:https://nlp.stanford.edu/projects/glove/
latexml.download_arxmliv.py
[データセット] .extract_to_json.py
latexml.xml_to_text.py
json_to_tsv.py
tsv_to_annotated.py
[データセット] .tables_to_processed.py
tables_processed_to_annotated.py
dataset.common.join_all.py
preproc.build_vocab.py
preproc.bucketing.py
python lm_jtr.py
--Data [臨床| arxmliv]
-trainnumber_of_epochs
- バッチbatch_size
-config [a1 | a2 | a3 | a4 | b1 | b2 | c1]#数値を出力するための戦略(モデルがロードされている場合は推測)
- テスト#テスト時間評価を抑制します
-No-Inspect#診断を抑制する(プロット、中間の値など)
-Load A1_2018_02_17_16_50_13_CLINICAL
例えば
python lm_jtr.py - data arxmliv - no-inspect - no-test-train 500 - バッチ50 - config a1#trainモデル
python lm_jtr.py - data arxmliv - ノーインインストペクト - ロードA1_2018_02_18_11_55_11_ARXMLIV#テストモデル
python lm_jtr.py - data arxmliv - ノーテスト - ロードA1_2018_02_18_11_55_11_ARXMLIV
A1:SoftMax
A2:SoftMax+RNN
A3:H-SoftMax
A4:H-SOFTMAX+RNN
B1:D-RNN
B2:モグ
C1:組み合わせ