Yannis Assael * , Thea Sommerschild * , Jonathan Prag
Die Alte Geschichte stützt sich auf Disziplinen wie die Epigraphik, das Studium antiker Inschriftentexte, um Beweise für die aufgezeichnete Vergangenheit zu erhalten. Allerdings werden diese Texte, „Inschriften“, im Laufe der Jahrhunderte oft beschädigt, und unleserliche Teile des Textes müssen von Spezialisten, sogenannten Epigraphikern, wiederhergestellt werden. Diese Arbeit stellt eine neuartige unterstützende Methode zur Bereitstellung von Textwiederherstellungen mithilfe tiefer neuronaler Netze vor. Nach unserem besten Wissen ist Pythia das erste alte Textwiederherstellungsmodell, das fehlende Zeichen aus einer beschädigten Texteingabe wiederherstellt. Seine Architektur ist sorgfältig darauf ausgelegt, langfristige Kontextinformationen zu verarbeiten und effizient mit fehlenden oder beschädigten Zeichen- und Wortdarstellungen umzugehen. Um es zu trainieren, haben wir eine nicht triviale Pipeline geschrieben, um PHI, den größten digitalen Korpus antiker griechischer Inschriften, in maschinenverwertbaren Text umzuwandeln, den wir PHI-ML nennen. Auf PHI-ML erreichen Pythias Vorhersagen eine Zeichenfehlerrate von 30,1 %, verglichen mit 57,3 % bei menschlichen Epigraphikern. Darüber hinaus gehörte die Ground-Truth-Sequenz in 73,5 % der Fälle zu den Top-20-Hypothesen von Pythia, was den Einfluss einer solchen unterstützenden Methode auf den Bereich der digitalen Epigraphik eindrucksvoll demonstriert und den Stand der Technik darstellt Restaurierung antiker Texte.
Pythia-Bi-Word verarbeitet die Phrase μηδέν ἄγαν (mēdén ágan) „nichts im Übermaß“, eine sagenumwobene Maxime, die auf Apollos Tempel in Delphi eingraviert ist. Die Buchstaben „γα“ fehlen und sind mit „?“ versehen. Da das Wort ἄ??ν fehlende Zeichen enthält, wird seine Einbettung als unbekannt („unk“) behandelt. Der Decoder gibt korrekt „γα“ aus.
Wenn Sie den Quellcode dieses Projekts verwenden, geben Sie bitte Folgendes an:
@inproceedings{assael2019restoring,
title={Restoring ancient text using deep learning: a case study on {Greek} epigraphy},
author={Assael, Yannis and Sommerschield, Thea and Prag, Jonathan},
booktitle={Empirical Methods in Natural Language Processing},
pages={6369--6376},
year={2019}
}
Um die weitere Forschung auf diesem Gebiet zu unterstützen, haben wir ein interaktives Online-Python-Notizbuch erstellt, in dem Forscher eines unserer Modelle abfragen können, um Textwiederherstellungen zu erhalten und die Aufmerksamkeitsgewichte zu visualisieren.
Die folgenden Snippets bieten Referenzen für die Neugenerierung von PHI-ML und das Offline-Training neuer Modelle.
pip install -r requirements.txt &&
python -m nltk.downloader punkt
# Download PHI (this will take a while)
python -c 'import pythia.data.phi_download; pythia.data.phi_download.main()'
# Process and generate PHI-ML
python -c 'import pythia.data.phi_process; pythia.data.phi_process.main()'
Vorverarbeitetes PHI-ML hochgeladen von @Holger.Danske800: Link
python -c 'import pythia.train; pythia.train.main()'
python -c 'import pythia.test; pythia.test.main()' --load_checkpoint="your_model_path/"
./build.sh
./run.sh <GPU_ID> python -c 'import pythia.train; pythia.train.main()'
Apache-Lizenz, Version 2.0
Beschädigte Inschrift: ein Dekret bezüglich der Akropolis von Athen (485/4 v. Chr.). IG I 3 4B.
(CC BY-SA 3.0, WikiMedia)