Yannis Assael * , Thea Sommerschield * , Jonathan Prag
Sejarah Kuno bergantung pada disiplin ilmu seperti Epigrafi, studi tentang teks tertulis kuno, sebagai bukti catatan masa lalu. Namun, teks-teks ini, yang disebut "prasasti", sering kali rusak selama berabad-abad, dan bagian teks yang tidak terbaca harus diperbaiki oleh spesialis, yang dikenal sebagai ahli epigrafi. Karya ini menyajikan metode bantuan baru untuk menyediakan restorasi teks menggunakan jaringan saraf dalam. Sejauh pengetahuan kami, Pythia adalah model restorasi teks kuno pertama yang memulihkan karakter yang hilang dari masukan teks yang rusak. Arsitekturnya dirancang dengan cermat untuk menangani informasi konteks jangka panjang, dan menangani representasi karakter dan kata yang hilang atau rusak secara efisien. Untuk melatihnya, kami menulis alur non-sepele untuk mengonversi PHI, korpus digital terbesar dari prasasti Yunani kuno, menjadi teks yang dapat ditindaklanjuti dengan mesin, yang kami sebut PHI-ML. Pada PHI-ML, prediksi Pythia mencapai tingkat kesalahan karakter sebesar 30,1%, dibandingkan dengan 57,3% ahli epigraf manusia. Selain itu, dalam 73,5% kasus, rangkaian kebenaran dasar termasuk di antara 20 hipotesis teratas Pythia, yang secara efektif menunjukkan dampak metode bantuan tersebut pada bidang epigrafi digital, dan menetapkan metode tercanggih dalam bidang epigrafi digital. restorasi teks kuno.
Pythia-Bi-Word memproses frasa μηδέν ἄγαν (mēdén ágan) "tidak ada yang berlebihan", sebuah pepatah dongeng yang tertulis di kuil Apollo di Delphi. Huruf "γα" tidak ada, dan diberi keterangan "?". Karena kata ἄ??ν mengandung karakter yang hilang, penyematannya dianggap tidak diketahui ("unk"). Dekoder mengeluarkan "γα" dengan benar.
Saat menggunakan salah satu kode sumber proyek ini, harap kutip:
@inproceedings{assael2019restoring,
title={Restoring ancient text using deep learning: a case study on {Greek} epigraphy},
author={Assael, Yannis and Sommerschield, Thea and Prag, Jonathan},
booktitle={Empirical Methods in Natural Language Processing},
pages={6369--6376},
year={2019}
}
Untuk membantu penelitian lebih lanjut di lapangan, kami membuat buku catatan python interaktif online, tempat peneliti dapat menanyakan salah satu model kami untuk mendapatkan restorasi teks dan memvisualisasikan bobot perhatian.
Cuplikan berikut memberikan referensi untuk membuat ulang PHI-ML dan melatih model baru secara offline.
pip install -r requirements.txt &&
python -m nltk.downloader punkt
# Download PHI (this will take a while)
python -c 'import pythia.data.phi_download; pythia.data.phi_download.main()'
# Process and generate PHI-ML
python -c 'import pythia.data.phi_process; pythia.data.phi_process.main()'
PHI-ML yang telah diproses sebelumnya diunggah oleh @Holger.Danske800: tautan
python -c 'import pythia.train; pythia.train.main()'
python -c 'import pythia.test; pythia.test.main()' --load_checkpoint="your_model_path/"
./build.sh
./run.sh <GPU_ID> python -c 'import pythia.train; pythia.train.main()'
Lisensi Apache, Versi 2.0
Prasasti rusak: dekrit tentang Acropolis Athena (485/4 SM). IG I 3 4B.
(CC BY-SA 3.0, WikiMedia)