aanrelease2013.tar.gz
เป็นระเบียบ
papers_text/
หลายไฟล์ (ข้อความธรรมดาที่ดึงมาจาก PDF) มีปัญหา:P00-1032
, W06-3709
)T75-2033
ไปจนถึงใช้ไม่ได้ เช่น J79-1013
)C73-2029
)L08-1302
) Makefile
จัดเตรียมเอกสารประกอบของปัญหาและงานล้างข้อมูลที่เกี่ยวข้องอย่างชัดเจน
พื้นที่เก็บข้อมูลนี้ไม่มีข้อมูลต้นฉบับ มีเพียงคำอธิบายทางโปรแกรมเกี่ยวกับวิธีการแก้ไขเท่านั้น
หากต้องการรัน ให้เรียก make
ในไดเร็กทอรีราก
อินเทอร์เฟซเครือข่าย ACL Anthology Network ของมหาวิทยาลัยมิชิแกน CLAIR Group รายงานสถิติต่อไปนี้:
วัด | ค่า |
---|---|
จำนวนกระดาษ | 21,212 |
จำนวนผู้เขียน | 17,792 |
จำนวนสถานที่จัดงาน | 342 |
จำนวนการอ้างอิงบทความ | 110,975 |
จำนวนความร่วมมือของผู้เขียน | 142,450 |
เส้นผ่านศูนย์กลางเครือข่ายการอ้างอิง | 22 |
เส้นผ่านศูนย์กลางเครือข่ายความร่วมมือ | 15 |
บางส่วนไม่ถูกต้องหรืออธิบายแหล่งข้อมูลเพียงแหล่งเดียวเท่านั้น แหล่งที่มาที่แตกต่างกันในชุดข้อมูลประกอบด้วยชุดย่อยของข้อมูลที่แตกต่างกัน ตัวอย่างเช่น มีการรายงานการอ้างอิงสำหรับเอกสารบางฉบับที่ไม่มีไฟล์ papers_text/
ที่เกี่ยวข้อง (เช่น L08-1098
)
aan/release/2013/acl.txt
วัด | ค่า |
---|---|
อ้างถึง → อ้างถึงความสัมพันธ์ | 110,930 |
เอกสารอ้างอิงที่ไม่ซ้ำใคร | 16,554 |
เฉลี่ย อ้างต่อการอ้างอิง | 6.7011 |
เอกสารอ้างอิงที่ไม่ซ้ำใคร | 12,840 |
เฉลี่ย อ้างอิงต่อการอ้างอิง | 8.6394 |
เอกสารที่ไม่ซ้ำใคร | 18,160 |
เอกสารเฉพาะที่ทั้งอ้างอิงและถูกอ้างอิง | 11,234 |
10 อันดับบทความที่มีผู้อ้างอิงมากที่สุด | #เอกสารอ้างอิง | ผู้เขียน | ชื่อ |
---|---|---|---|
J93-2004 | 928 | มิทเชลและคณะ | การสร้างคลังข้อมูลภาษาอังกฤษที่มีคำอธิบายประกอบขนาดใหญ่: ภาษาศาสตร์คอมพิวเตอร์ของ Penn Treebank |
P02-1040 | 891 | ปาปินีนี และคณะ | Bleu: วิธีการประเมินการแปลด้วยเครื่องอัตโนมัติ |
J93-2003 | 729 | บราวน์ และคณะ | คณิตศาสตร์ของการแปลด้วยเครื่องทางสถิติ: การประมาณค่าพารามิเตอร์ |
P03-1021 | 667 | โอช & โจเซฟ | การฝึกอบรมอัตราข้อผิดพลาดขั้นต่ำในการแปลด้วยเครื่องทางสถิติ |
J03-1002 | 656 | โอช & โจเซฟ | การเปรียบเทียบอย่างเป็นระบบของแบบจำลองการจัดตำแหน่งทางสถิติต่างๆ |
P07-2045 | 591 | โคห์น และคณะ | โมเสส: ชุดเครื่องมือโอเพ่นซอร์สสำหรับการแปลด้วยเครื่องทางสถิติ |
N03-1017 | 556 | โคห์น และคณะ | การแปลตามวลีเชิงสถิติ |
P03-1054 | 394 | ไคลน์ แอนด์ แมนนิ่ง | การแยกวิเคราะห์ Unlexicalized ที่แม่นยำ |
เจ96-1002 | 376 | เบอร์เกอร์และคณะ | แนวทางเอนโทรปีสูงสุดในการประมวลผลภาษาธรรมชาติ |
A00-2018 | 371 | ชาเนียก | Parser ที่ได้รับแรงบันดาลใจจากเอนโทรปีสูงสุด |
10 อันดับเอกสารที่มีการอ้างอิงมากที่สุด | #ของเอกสารที่อ้างถึง |
---|---|
P10-1142 | 88 |
J10-3003 | 80 |
ส13-4917 | 71 |
ส13-2201 | 65 |
เจ12-1006 | 62 |
เจ98-1001 | 59 |
J13-2003 | 59 |
J07-4004 | 57 |
J11-2002 | 52 |
D11-1108 | 52 |
aan/release/2013/acl-metadata.txt
การจัดรูปแบบของไฟล์นี้ตรงไปตรงมาน่าสับสน โครงสร้างทั่วไปเป็นแบบ BibTeX แต่ไม่มีตัวแยกวิเคราะห์ BibTeX ใดที่สามารถจัดการได้ ที่แย่กว่านั้นคือส่วนผสมของการเข้ารหัสมันบ้าไปแล้ว! หาก ftfy
กำลังมองหากรณีศึกษาที่ยอดเยี่ยมในโลกแห่งความเป็นจริง ก็คงเป็นเช่นนั้น
author
หายไป 1 คน คือ W10-4238
และลำดับ author
ที่ไม่ซ้ำกัน 16,308 คน (รายชื่อ author
แต่งทั้งหมดสำหรับบทความนั้น)aan/papers_text/???-????.txt
มีไฟล์อื่นๆ อีกจำนวนมากในไดเร็กทอรีนี้ บทความบางส่วนแบ่งออกเป็นเนื้อหาและส่วนอ้างอิง มีไฟล์บางไฟล์ที่ดูเหมือนว่าตั้งใจจะเข้าไป aan/release/2013/
; และไฟล์หลายไฟล์ที่ตรงกับรูปแบบนี้จะว่างเปล่า
papers_text/
papers_text/
แม้จะมีข้อบกพร่องเหล่านี้ แต่ ACL Anthology Network ก็เป็นแหล่งข้อมูลที่ดีเยี่ยม ขอบคุณมากสำหรับผู้มีส่วนร่วมมากมาย
ดราโกเมียร์ อาร์. ราเดฟ, ปราดีพ มูทูกฤษนัน, วาเฮด กาซวิเนียน, อัมจัดด์ อาบู-ญบารา 2013 ACL Anthology Network Corpus แหล่งข้อมูลและการประเมินผลทางภาษา 47 (4), หน้า 919–944 10.1007/s10579-012-9211-2.
ลิขสิทธิ์ 2016–2018 คริสโตเฟอร์ บราวน์ เอ็มไอทีได้รับใบอนุญาต