ดาวน์โหลด ancient text restoration - ancient text restoration การดาวน์โหลดซอร์สโค้ด

ancient text restoration

ซอร์สโค้ดอื่น ๆ

ดาวน์โหลด

การกู้คืนข้อความโบราณโดยใช้การเรียนรู้เชิงลึก

กรณีศึกษาเกี่ยวกับอักษรกรีก

ยานนิส อัสซาเอล ^* , เธีย ซอมเมอร์สฟิลด์ ^* , โจนาธาน พราก

ประวัติศาสตร์สมัยโบราณอาศัยสาขาวิชาต่างๆ เช่น Epigraphy ซึ่งเป็นการศึกษาข้อความที่จารึกไว้โบราณ เพื่อเป็นหลักฐานของอดีตที่บันทึกไว้ อย่างไรก็ตาม ข้อความเหล่านี้ซึ่งเรียกว่า "คำจารึก" มักได้รับความเสียหายตลอดหลายศตวรรษที่ผ่านมา และส่วนที่อ่านไม่ออกของข้อความจะต้องได้รับการซ่อมแซมโดยผู้เชี่ยวชาญ หรือที่เรียกว่านักจารึกอักษร งานนี้นำเสนอวิธีการช่วยเหลือแบบใหม่ในการคืนค่าข้อความโดยใช้โครงข่ายประสาทเทียมระดับลึก เท่าที่เราทราบ Pythia คือโมเดลการกู้คืนข้อความโบราณตัวแรกที่กู้คืนอักขระที่หายไปจากการป้อนข้อความที่เสียหาย สถาปัตยกรรมได้รับการออกแบบอย่างระมัดระวังเพื่อจัดการกับข้อมูลบริบทในระยะยาว และจัดการกับอักขระและคำที่หายไปหรือเสียหายอย่างมีประสิทธิภาพ ในการฝึกสอน เราได้เขียนขั้นตอนง่ายๆ เพื่อแปลง PHI ซึ่งเป็นคลังข้อมูลดิจิทัลที่ใหญ่ที่สุดของคำจารึกภาษากรีกโบราณ ให้เป็นข้อความที่ดำเนินการได้ด้วยเครื่อง ซึ่งเราเรียกว่า PHI-ML ใน PHI-ML การคาดการณ์ของ Pythia มีอัตราความผิดพลาดของอักขระอยู่ที่ 30.1% เทียบกับ 57.3% ของผู้เขียน epigraphists ที่เป็นมนุษย์ ยิ่งไปกว่านั้น ใน 73.5% ของกรณี ลำดับความจริงภาคพื้นดินเป็นหนึ่งในสมมติฐาน 20 อันดับแรกของ Pythia ซึ่งแสดงให้เห็นอย่างมีประสิทธิภาพถึงผลกระทบของวิธีการช่วยเหลือดังกล่าวในสาขาการคัดลอกดิจิทัล และกำหนดความล้ำสมัยใน การบูรณะข้อความโบราณ

Pythia-Bi-Word ประมวลผลวลี μηδέν ἄγαν (mēdén ágan) "ไม่มีอะไรเกินเลย" ซึ่งเป็นคติพจน์ในตำนานที่จารึกไว้ที่วิหารของอพอลโลในเดลฟี ตัวอักษร "γα" หายไป และมีหมายเหตุประกอบด้วย "?" เนื่องจากคำ ἄ??ν มีอักขระที่หายไป การฝังจึงถือว่าไม่รู้จัก ("unk") ตัวถอดรหัสจะส่งออก "γα" อย่างถูกต้อง

อ้างอิง

พิมพ์ล่วงหน้า arXiv
EMNLP-IJCNLP 2019
วิกิพีเดียคลาสสิกดิจิทัล
บล็อกการวิจัย DeepMind
บล็อกข่าวมหาวิทยาลัยอ็อกซ์ฟอร์ด

เมื่อใช้ซอร์สโค้ดของโครงการนี้ โปรดอ้างอิง:

 @inproceedings{assael2019restoring,
  title={Restoring ancient text using deep learning: a case study on {Greek} epigraphy},
  author={Assael, Yannis and Sommerschield, Thea and Prag, Jonathan},
  booktitle={Empirical Methods in Natural Language Processing},
  pages={6369--6376},
  year={2019}
}

ไพเธียออนไลน์

เพื่อช่วยในการวิจัยเพิ่มเติมในสาขานี้ เราได้สร้างสมุดบันทึก Python แบบโต้ตอบออนไลน์ ซึ่งนักวิจัยสามารถสอบถามหนึ่งในแบบจำลองของเราเพื่อรับการฟื้นฟูข้อความและแสดงภาพน้ำหนักความสนใจ

Google Colab

ไพเธีย ออฟไลน์

ตัวอย่างต่อไปนี้ให้ข้อมูลอ้างอิงสำหรับการสร้าง PHI-ML ใหม่และการฝึกโมเดลใหม่แบบออฟไลน์

การพึ่งพาอาศัยกัน

 pip install -r requirements.txt && 
python -m nltk.downloader punkt

การสร้างชุดข้อมูล PHI-ML

 # Download PHI (this will take a while)
python -c 'import pythia.data.phi_download; pythia.data.phi_download.main()'

# Process and generate PHI-ML
python -c 'import pythia.data.phi_process; pythia.data.phi_process.main()'

PHI-ML ที่ประมวลผลล่วงหน้าอัปโหลดโดย @ Holger.Danske800: ลิงก์

การฝึกอบรม

 python -c 'import pythia.train; pythia.train.main()'

การประเมิน

 python -c 'import pythia.test; pythia.test.main()' --load_checkpoint="your_model_path/"

การดำเนินการนักเทียบท่า

 ./build.sh
./run.sh <GPU_ID> python -c 'import pythia.train; pythia.train.main()'

ใบอนุญาต

ใบอนุญาต Apache เวอร์ชัน 2.0

จารึกที่เสียหาย: พระราชกฤษฎีกาเกี่ยวกับอะโครโพลิสแห่งเอเธนส์ (485/4 คริสตศักราช) ไอจี ฉัน ³ 4B.
(CC BY-SA 3.0, วิกิมีเดีย)

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-12-17
ขนาด 50MB
มาจาก Github

แอปที่เกี่ยวข้อง

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด

ancient text restoration

การกู้คืนข้อความโบราณโดยใช้การเรียนรู้เชิงลึก

กรณีศึกษาเกี่ยวกับอักษรกรีก

อ้างอิง

ไพเธียออนไลน์

ไพเธีย ออฟไลน์

การพึ่งพาอาศัยกัน

การสร้างชุดข้อมูล PHI-ML

การฝึกอบรม

การประเมิน

การดำเนินการนักเทียบท่า

ใบอนุญาต

ข้อความหรือตาย

ผู้พิทักษ์โบราณ

เหวโบราณ

เมืองโบราณ

อีโบราณ

ศัตรูโบราณ

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind