Yannis Assael * , Thea Sommerschield * , Jonathan Prag
L'histoire ancienne s'appuie sur des disciplines telles que l'épigraphie, l'étude des textes inscrits anciens, pour témoigner du passé enregistré. Cependant, ces textes, « inscriptions », sont souvent endommagés au fil des siècles, et les parties illisibles du texte doivent être restaurées par des spécialistes, appelés épigraphistes. Ce travail présente une nouvelle méthode d'assistance pour fournir des restaurations de texte à l'aide de réseaux de neurones profonds. Au meilleur de nos connaissances, Pythia est le premier modèle de restauration de texte ancien qui récupère les caractères manquants d'une saisie de texte endommagée. Son architecture est soigneusement conçue pour gérer les informations contextuelles à long terme et traiter efficacement les représentations de caractères et de mots manquants ou corrompus. Pour le former, nous avons écrit un pipeline non trivial pour convertir PHI, le plus grand corpus numérique d'inscriptions grecques anciennes, en texte exploitable par machine, que nous appelons PHI-ML. Sur PHI-ML, les prédictions de Pythia atteignent un taux d'erreur de caractère de 30,1 %, contre 57,3 % pour les épigraphistes humains. De plus, dans 73,5 % des cas, la séquence de vérité terrain figurait parmi les 20 principales hypothèses de la Pythie, ce qui démontre efficacement l'impact d'une telle méthode d'assistance dans le domaine de l'épigraphie numérique et établit l'état de l'art en matière d'épigraphie numérique. restauration de textes anciens.
Pythia-Bi-Word traitant l'expression μηδέν ἄγαν (mēdén ágan) "rien d'excédent", une maxime légendaire inscrite sur le temple d'Apollon à Delphes. Les lettres "γα" sont manquantes et annotées de "?". Puisque le mot ἄ??ν contient des caractères manquants, son intégration est traitée comme inconnue (« unk »). Le décodeur émet correctement "γα".
Lorsque vous utilisez le code source de ce projet, veuillez citer :
@inproceedings{assael2019restoring,
title={Restoring ancient text using deep learning: a case study on {Greek} epigraphy},
author={Assael, Yannis and Sommerschield, Thea and Prag, Jonathan},
booktitle={Empirical Methods in Natural Language Processing},
pages={6369--6376},
year={2019}
}
Pour faciliter la recherche dans ce domaine, nous avons créé un cahier Python interactif en ligne, dans lequel les chercheurs peuvent interroger l'un de nos modèles pour obtenir des restaurations de texte et visualiser les poids d'attention.
Les extraits suivants fournissent des références pour régénérer PHI-ML et former de nouveaux modèles hors ligne.
pip install -r requirements.txt &&
python -m nltk.downloader punkt
# Download PHI (this will take a while)
python -c 'import pythia.data.phi_download; pythia.data.phi_download.main()'
# Process and generate PHI-ML
python -c 'import pythia.data.phi_process; pythia.data.phi_process.main()'
PHI-ML prétraité téléchargé par @Holger.Danske800 : lien
python -c 'import pythia.train; pythia.train.main()'
python -c 'import pythia.test; pythia.test.main()' --load_checkpoint="your_model_path/"
./build.sh
./run.sh <GPU_ID> python -c 'import pythia.train; pythia.train.main()'
Licence Apache, version 2.0
Inscription endommagée : un décret concernant l'Acropole d'Athènes (485/4 avant notre ère). IG I 3 4B.
(CC BY-SA 3.0, WikiMédia)