ยานนิส อัสซาเอล * , เธีย ซอมเมอร์สฟิลด์ * , โจนาธาน พราก
ประวัติศาสตร์สมัยโบราณอาศัยสาขาวิชาต่างๆ เช่น Epigraphy ซึ่งเป็นการศึกษาข้อความที่จารึกไว้โบราณ เพื่อเป็นหลักฐานของอดีตที่บันทึกไว้ อย่างไรก็ตาม ข้อความเหล่านี้ซึ่งเรียกว่า "คำจารึก" มักได้รับความเสียหายตลอดหลายศตวรรษที่ผ่านมา และส่วนที่อ่านไม่ออกของข้อความจะต้องได้รับการซ่อมแซมโดยผู้เชี่ยวชาญ หรือที่เรียกว่านักจารึกอักษร งานนี้นำเสนอวิธีการช่วยเหลือแบบใหม่ในการคืนค่าข้อความโดยใช้โครงข่ายประสาทเทียมระดับลึก เท่าที่เราทราบ Pythia คือโมเดลการกู้คืนข้อความโบราณตัวแรกที่กู้คืนอักขระที่หายไปจากการป้อนข้อความที่เสียหาย สถาปัตยกรรมได้รับการออกแบบอย่างระมัดระวังเพื่อจัดการกับข้อมูลบริบทในระยะยาว และจัดการกับอักขระและคำที่หายไปหรือเสียหายอย่างมีประสิทธิภาพ ในการฝึกสอน เราได้เขียนขั้นตอนง่ายๆ เพื่อแปลง PHI ซึ่งเป็นคลังข้อมูลดิจิทัลที่ใหญ่ที่สุดของคำจารึกภาษากรีกโบราณ ให้เป็นข้อความที่ดำเนินการได้ด้วยเครื่อง ซึ่งเราเรียกว่า PHI-ML ใน PHI-ML การคาดการณ์ของ Pythia มีอัตราความผิดพลาดของอักขระอยู่ที่ 30.1% เทียบกับ 57.3% ของผู้เขียน epigraphists ที่เป็นมนุษย์ ยิ่งไปกว่านั้น ใน 73.5% ของกรณี ลำดับความจริงภาคพื้นดินเป็นหนึ่งในสมมติฐาน 20 อันดับแรกของ Pythia ซึ่งแสดงให้เห็นอย่างมีประสิทธิภาพถึงผลกระทบของวิธีการช่วยเหลือดังกล่าวในสาขาการคัดลอกดิจิทัล และกำหนดความล้ำสมัยใน การบูรณะข้อความโบราณ
Pythia-Bi-Word ประมวลผลวลี μηδέν ἄγαν (mēdén ágan) "ไม่มีอะไรเกินเลย" ซึ่งเป็นคติพจน์ในตำนานที่จารึกไว้ที่วิหารของอพอลโลในเดลฟี ตัวอักษร "γα" หายไป และมีหมายเหตุประกอบด้วย "?" เนื่องจากคำ ἄ??ν มีอักขระที่หายไป การฝังจึงถือว่าไม่รู้จัก ("unk") ตัวถอดรหัสจะส่งออก "γα" อย่างถูกต้อง
เมื่อใช้ซอร์สโค้ดของโครงการนี้ โปรดอ้างอิง:
@inproceedings{assael2019restoring,
title={Restoring ancient text using deep learning: a case study on {Greek} epigraphy},
author={Assael, Yannis and Sommerschield, Thea and Prag, Jonathan},
booktitle={Empirical Methods in Natural Language Processing},
pages={6369--6376},
year={2019}
}
เพื่อช่วยในการวิจัยเพิ่มเติมในสาขานี้ เราได้สร้างสมุดบันทึก Python แบบโต้ตอบออนไลน์ ซึ่งนักวิจัยสามารถสอบถามหนึ่งในแบบจำลองของเราเพื่อรับการฟื้นฟูข้อความและแสดงภาพน้ำหนักความสนใจ
ตัวอย่างต่อไปนี้ให้ข้อมูลอ้างอิงสำหรับการสร้าง PHI-ML ใหม่และการฝึกโมเดลใหม่แบบออฟไลน์
pip install -r requirements.txt &&
python -m nltk.downloader punkt
# Download PHI (this will take a while)
python -c 'import pythia.data.phi_download; pythia.data.phi_download.main()'
# Process and generate PHI-ML
python -c 'import pythia.data.phi_process; pythia.data.phi_process.main()'
PHI-ML ที่ประมวลผลล่วงหน้าอัปโหลดโดย @ Holger.Danske800: ลิงก์
python -c 'import pythia.train; pythia.train.main()'
python -c 'import pythia.test; pythia.test.main()' --load_checkpoint="your_model_path/"
./build.sh
./run.sh <GPU_ID> python -c 'import pythia.train; pythia.train.main()'
ใบอนุญาต Apache เวอร์ชัน 2.0
จารึกที่เสียหาย: พระราชกฤษฎีกาเกี่ยวกับอะโครโพลิสแห่งเอเธนส์ (485/4 คริสตศักราช) ไอจี ฉัน 3 4B.
(CC BY-SA 3.0, วิกิมีเดีย)