Yannis Assael * , Thea Sommerschield * , Jonathan Prag
A História Antiga depende de disciplinas como a Epigrafia, o estudo de textos inscritos antigos, para evidenciar o passado registrado. No entanto, estes textos, “inscrições”, são frequentemente danificados ao longo dos séculos, e partes ilegíveis do texto devem ser restauradas por especialistas, conhecidos como epigrafistas. Este trabalho apresenta um novo método auxiliar para fornecer restaurações de texto usando redes neurais profundas. Até onde sabemos, Pythia é o primeiro modelo antigo de restauração de texto que recupera caracteres ausentes de uma entrada de texto danificada. Sua arquitetura é cuidadosamente projetada para lidar com informações de contexto de longo prazo e lidar de forma eficiente com representações de caracteres e palavras ausentes ou corrompidas. Para treiná-lo, escrevemos um pipeline não trivial para converter PHI, o maior corpus digital de inscrições gregas antigas, em texto acionável por máquina, que chamamos de PHI-ML. No PHI-ML, as previsões de Pythia atingem uma taxa de erro de caracteres de 30,1%, em comparação com 57,3% dos epigrafistas humanos. Além disso, em 73,5% dos casos, a sequência da verdade absoluta estava entre as 20 principais hipóteses da Pítia, o que demonstra efetivamente o impacto de tal método auxiliar no campo da epigrafia digital e define o estado da arte em restauração de textos antigos.
Pythia-Bi-Word processando a frase μηδέν ἄγαν (mēdén ágan) "nada em excesso", uma máxima lendária inscrita no templo de Apolo em Delfos. As letras "γα" estão faltando e são anotadas com "?". Como a palavra ἄ??ν contém caracteres ausentes, sua incorporação é tratada como desconhecida ("unk"). O decodificador emite corretamente "γα".
Ao usar qualquer código-fonte deste projeto, cite:
@inproceedings{assael2019restoring,
title={Restoring ancient text using deep learning: a case study on {Greek} epigraphy},
author={Assael, Yannis and Sommerschield, Thea and Prag, Jonathan},
booktitle={Empirical Methods in Natural Language Processing},
pages={6369--6376},
year={2019}
}
Para auxiliar futuras pesquisas na área, criamos um notebook python interativo online, onde os pesquisadores podem consultar um de nossos modelos para obter restaurações de texto e visualizar os pesos de atenção.
Os trechos a seguir fornecem referências para regenerar PHI-ML e treinar novos modelos offline.
pip install -r requirements.txt &&
python -m nltk.downloader punkt
# Download PHI (this will take a while)
python -c 'import pythia.data.phi_download; pythia.data.phi_download.main()'
# Process and generate PHI-ML
python -c 'import pythia.data.phi_process; pythia.data.phi_process.main()'
PHI-ML pré-processado enviado por @Holger.Danske800: link
python -c 'import pythia.train; pythia.train.main()'
python -c 'import pythia.test; pythia.test.main()' --load_checkpoint="your_model_path/"
./build.sh
./run.sh <GPU_ID> python -c 'import pythia.train; pythia.train.main()'
Licença Apache, versão 2.0
Inscrição danificada: um decreto relativo à Acrópole de Atenas (485/4 aC). IG I 3 4B.
(CC BY-SA 3.0, WikiMedia)