雅尼斯·阿萨尔* 、西娅·索默斯基尔德* 、乔纳森·普拉格
古代史依赖金石学等学科,即对古代铭文的研究,以获取有记录的过去的证据。然而,这些文本“铭文”在几个世纪以来经常被损坏,文本中难以辨认的部分必须由专家(称为铭文学家)修复。这项工作提出了一种使用深度神经网络提供文本恢复的新颖辅助方法。据我们所知,Pythia 是第一个古代文本恢复模型,可以从损坏的文本输入中恢复丢失的字符。其架构经过精心设计,可以处理长期上下文信息,并有效处理丢失或损坏的字符和单词表示。为了训练它,我们编写了一个重要的管道,将最大的古希腊铭文数字语料库 PHI 转换为机器可操作的文本,我们称之为 PHI-ML。在 PHI-ML 上,Pythia 的预测实现了 30.1% 的字符错误率,而人类铭文学家的字符错误率为 57.3%。此外,在 73.5% 的情况下,ground-truth 序列跻身 Pythia 的 Top-20 假设之列,这有效地证明了这种辅助方法对数字金石学领域的影响,并设定了该领域的最先进水平。古文字修复。
Pythia-Bi-Word 处理短语 μηδέν ἄγαν (mēdén ágan)“勿过量”,这是刻在德尔斐阿波罗神庙上的一句传说格言。字母“γα”缺失,并用“?”注释。由于单词 ἄ??ν 包含缺失字符,因此其嵌入被视为未知(“unk”)。解码器正确输出“γα”。
当使用该项目的任何源代码时,请引用:
@inproceedings{assael2019restoring,
title={Restoring ancient text using deep learning: a case study on {Greek} epigraphy},
author={Assael, Yannis and Sommerschield, Thea and Prag, Jonathan},
booktitle={Empirical Methods in Natural Language Processing},
pages={6369--6376},
year={2019}
}
为了帮助该领域的进一步研究,我们创建了一个在线交互式 Python 笔记本,研究人员可以在其中查询我们的模型之一以获取文本恢复并可视化注意力权重。
以下片段提供了重新生成 PHI-ML 和离线训练新模型的参考。
pip install -r requirements.txt &&
python -m nltk.downloader punkt
# Download PHI (this will take a while)
python -c 'import pythia.data.phi_download; pythia.data.phi_download.main()'
# Process and generate PHI-ML
python -c 'import pythia.data.phi_process; pythia.data.phi_process.main()'
@Holger.Danske800 上传的预处理 PHI-ML:链接
python -c 'import pythia.train; pythia.train.main()'
python -c 'import pythia.test; pythia.test.main()' --load_checkpoint="your_model_path/"
./build.sh
./run.sh <GPU_ID> python -c 'import pythia.train; pythia.train.main()'
Apache 许可证,版本 2.0
损坏的铭文:有关雅典卫城的法令(公元前 485 年/4 年)。 IG I 3 4B。
(CC BY-SA 3.0,维基媒体)