Yannis Assael * , Thea Sommerschield * , 조나단 프라그
고대사는 기록된 과거의 증거를 찾기 위해 고대에 새겨진 텍스트를 연구하는 비석학(Epigraphy)과 같은 분야에 의존합니다. 그러나 이러한 텍스트, 즉 "비문"은 수세기에 걸쳐 손상되는 경우가 많으므로 텍스트의 읽을 수 없는 부분은 금석학자라고 알려진 전문가에 의해 복원되어야 합니다. 이 연구는 심층 신경망을 사용하여 텍스트 복원을 제공하는 새로운 보조 방법을 제시합니다. 우리가 아는 한, Pythia는 손상된 텍스트 입력에서 누락된 문자를 복구하는 최초의 고대 텍스트 복원 모델입니다. 해당 아키텍처는 장기적인 컨텍스트 정보를 처리하고 누락되거나 손상된 문자 및 단어 표현을 효율적으로 처리하도록 신중하게 설계되었습니다. 이를 훈련시키기 위해 우리는 고대 그리스 비문의 가장 큰 디지털 자료인 PHI를 PHI-ML이라고 하는 기계 실행 가능한 텍스트로 변환하는 중요한 파이프라인을 작성했습니다. PHI-ML에서 Pythia의 예측은 인간 비석학자의 57.3%에 비해 문자 오류율이 30.1%에 달합니다. 더욱이, 73.5%의 사례에서 실측 시퀀스는 Pythia의 상위 20개 가설 중 하나였으며, 이는 디지털 비석 분야에 대한 이러한 보조 방법의 영향을 효과적으로 입증하고 최첨단 기술을 설정했습니다. 고대 텍스트 복원.
Pythia-Bi-Word는 델파이에 있는 아폴로 신전에 새겨진 전설적인 격언인 "과도한 것은 없다"라는 문구 μmetδέν ἄγαν(mēdén ágan)를 처리합니다. 문자 "γα"가 누락되었으며 "?"로 주석이 추가되었습니다. ἄ??ν 단어에는 누락된 문자가 포함되어 있으므로 포함된 내용은 알 수 없음("unk")으로 처리됩니다. 디코더는 "γα"를 올바르게 출력합니다.
이 프로젝트의 소스 코드를 사용할 때 다음을 인용해 주세요.
@inproceedings{assael2019restoring,
title={Restoring ancient text using deep learning: a case study on {Greek} epigraphy},
author={Assael, Yannis and Sommerschield, Thea and Prag, Jonathan},
booktitle={Empirical Methods in Natural Language Processing},
pages={6369--6376},
year={2019}
}
해당 분야의 추가 연구를 지원하기 위해 우리는 온라인 대화형 Python 노트북을 만들었습니다. 여기서 연구자는 모델 중 하나를 쿼리하여 텍스트 복원을 얻고 주의 가중치를 시각화할 수 있습니다.
다음 스니펫은 PHI-ML을 재생성하고 새 모델을 오프라인으로 교육하기 위한 참조를 제공합니다.
pip install -r requirements.txt &&
python -m nltk.downloader punkt
# Download PHI (this will take a while)
python -c 'import pythia.data.phi_download; pythia.data.phi_download.main()'
# Process and generate PHI-ML
python -c 'import pythia.data.phi_process; pythia.data.phi_process.main()'
@Holger.Danske800이 업로드한 전처리된 PHI-ML: 링크
python -c 'import pythia.train; pythia.train.main()'
python -c 'import pythia.test; pythia.test.main()' --load_checkpoint="your_model_path/"
./build.sh
./run.sh <GPU_ID> python -c 'import pythia.train; pythia.train.main()'
Apache 라이센스, 버전 2.0
손상된 비문: 아테네 아크로폴리스에 관한 법령(기원전 485/4). IG I 3 4B.
(CC BY-SA 3.0, 위키미디어)