雅尼斯·阿薩爾* 、西婭·索默斯基爾德* 、喬納森·普拉格
古代史依賴金石學等學科,即對古代銘文的研究,以獲取有記錄的過去的證據。然而,這些文本「銘文」在幾個世紀以來經常被損壞,文本中難以辨認的部分必須由專家(稱為銘文學家)修復。這項工作提出了一種使用深度神經網路提供文字復原的新穎輔助方法。據我們所知,Pythia 是第一個古代文字復原模型,可以從損壞的文字輸入中恢復遺失的字元。其架構經過精心設計,可以處理長期上下文訊息,並有效處理遺失或損壞的字元和單字表示。為了訓練它,我們編寫了一個重要的管道,將最大的古希臘銘文數位語料庫 PHI 轉換為機器可操作的文本,我們稱之為 PHI-ML。在 PHI-ML 上,Pythia 的預測實現了 30.1% 的字元錯誤率,而人類銘文學家的字元錯誤率為 57.3%。此外,在73.5% 的情況下,ground-truth 序列躋身Pythia 的Top-20 假設之列,這有效地證明了這種輔助方法對數位金石學領域的影響,並設定了該領域的最先進水平。
Pythia-Bi-Word 處理短語 μηδέν ἄγαν (mēdén ágan)“勿過量”,這是刻在德爾斐阿波羅神廟上的一句傳說格言。字母「γα」缺失,並以「?」註。由於單字 ἄ??ν 包含缺失字符,因此其嵌入被視為未知(“unk”)。解碼器正確輸出“γα”。
當使用該項目的任何原始碼時,請引用:
@inproceedings{assael2019restoring,
title={Restoring ancient text using deep learning: a case study on {Greek} epigraphy},
author={Assael, Yannis and Sommerschield, Thea and Prag, Jonathan},
booktitle={Empirical Methods in Natural Language Processing},
pages={6369--6376},
year={2019}
}
為了幫助該領域的進一步研究,我們創建了一個線上互動式 Python 筆記本,研究人員可以在其中查詢我們的模型之一以獲取文本恢復並可視化注意力權重。
以下片段提供了重新產生 PHI-ML 和離線訓練新模型的參考。
pip install -r requirements.txt &&
python -m nltk.downloader punkt
# Download PHI (this will take a while)
python -c 'import pythia.data.phi_download; pythia.data.phi_download.main()'
# Process and generate PHI-ML
python -c 'import pythia.data.phi_process; pythia.data.phi_process.main()'
@Holger.Danske800 上傳的預處理 PHI-ML:鏈接
python -c 'import pythia.train; pythia.train.main()'
python -c 'import pythia.test; pythia.test.main()' --load_checkpoint="your_model_path/"
./build.sh
./run.sh <GPU_ID> python -c 'import pythia.train; pythia.train.main()'
Apache 許可證,版本 2.0
損壞的銘文:有關雅典衛城的法令(公元前 485 年/4 年)。 IG I 3 4B。
(CC BY-SA 3.0,維基媒體)