يانيس أسيل * ، ثيا سوميرشيلد * ، جوناثان براج
يعتمد التاريخ القديم على تخصصات مثل النقوش، ودراسة النصوص القديمة المنقوشة، للحصول على أدلة على الماضي المسجل. ومع ذلك، فإن هذه النصوص، "النقوش"، غالبًا ما تتضرر على مر القرون، ويجب استعادة الأجزاء غير المقروءة من النص من قبل المتخصصين، المعروفين باسم علماء النقوش. يقدم هذا العمل طريقة مساعدة جديدة لتوفير عمليات استعادة النص باستخدام الشبكات العصبية العميقة. على حد علمنا، فإن Pythia هو أول نموذج قديم لاستعادة النص يستعيد الأحرف المفقودة من إدخال النص التالف. تم تصميم بنيتها بعناية للتعامل مع معلومات السياق طويلة المدى، والتعامل بكفاءة مع تمثيلات الأحرف والكلمات المفقودة أو التالفة. لتدريبه، قمنا بكتابة مسار غير تافه لتحويل PHI، وهي أكبر مجموعة رقمية من النقوش اليونانية القديمة، إلى نص قابل للتنفيذ آليًا، والذي نسميه PHI-ML. في PHI-ML، تحقق تنبؤات Pythia معدل خطأ في الأحرف يبلغ 30.1%، مقارنة بنسبة 57.3% لكتاب النقوش البشرية. علاوة على ذلك، في 73.5% من الحالات، كان تسلسل الحقيقة الأرضية من بين أفضل 20 فرضية لبيثيا، مما يوضح بشكل فعال تأثير مثل هذه الطريقة المساعدة في مجال الكتابة الرقمية، ويضع أحدث ما توصلت إليه التكنولوجيا في مجال الكتابة الرقمية. استعادة النص القديم.
معالجة Pythia-Bi-Word لعبارة μηδέν ἄγαν (mēdén ágan) "لا شيء زائد"، وهي مقولة أسطورية منقوشة على معبد أبولو في دلفي. الأحرف "γα" مفقودة ومُعلقة بـ "؟". نظرًا لأن الكلمة ἄ??ν تحتوي على أحرف مفقودة، فسيتم التعامل مع تضمينها على أنه غير معروف ("unk"). يقوم جهاز فك التشفير بإخراج "γα" بشكل صحيح.
عند استخدام أي من التعليمات البرمجية المصدر لهذا المشروع، يرجى الاستشهاد بما يلي:
@inproceedings{assael2019restoring,
title={Restoring ancient text using deep learning: a case study on {Greek} epigraphy},
author={Assael, Yannis and Sommerschield, Thea and Prag, Jonathan},
booktitle={Empirical Methods in Natural Language Processing},
pages={6369--6376},
year={2019}
}
للمساعدة في إجراء المزيد من الأبحاث في هذا المجال، قمنا بإنشاء دفتر ملاحظات تفاعلي عبر الإنترنت عن لغة بايثون، حيث يمكن للباحثين الاستعلام عن أحد نماذجنا للحصول على عمليات استعادة النص وتصور أوزان الانتباه.
توفر المقتطفات التالية مراجع لإعادة إنشاء PHI-ML وتدريب النماذج الجديدة دون الاتصال بالإنترنت.
pip install -r requirements.txt &&
python -m nltk.downloader punkt
# Download PHI (this will take a while)
python -c 'import pythia.data.phi_download; pythia.data.phi_download.main()'
# Process and generate PHI-ML
python -c 'import pythia.data.phi_process; pythia.data.phi_process.main()'
تم تحميل PHI-ML المُجهز مسبقًا بواسطة @Holger.Danske800: الرابط
python -c 'import pythia.train; pythia.train.main()'
python -c 'import pythia.test; pythia.test.main()' --load_checkpoint="your_model_path/"
./build.sh
./run.sh <GPU_ID> python -c 'import pythia.train; pythia.train.main()'
ترخيص أباتشي، الإصدار 2.0
نقش تالف: مرسوم بشأن الأكروبول في أثينا (485/4 قبل الميلاد). إي جي أنا 3 4 ب.
(سيسي بي-سا 3.0، ويكيميديا)