aanrelease2013.tar.gz
berantakan.
papers_text/
(teks biasa yang diekstraksi dari PDF) mengalami masalah:P00-1032
, W06-3709
)T75-2033
, hingga tidak dapat digunakan, misalnya J79-1013
)C73-2029
)L08-1302
) Makefile
secara deklaratif menyediakan beberapa dokumentasi mengenai masalah dan pekerjaan pembersihan yang terlibat.
Repositori ini tidak berisi data asli apa pun, hanya deskripsi terprogram tentang cara memperbaikinya.
Untuk menjalankannya, panggil make
di direktori root.
Antarmuka Jaringan Antologi ACL Grup CLAIR Universitas Michigan melaporkan statistik berikut:
Ukuran | Nilai |
---|---|
Jumlah makalah | 21.212 |
Jumlah penulis | 17.792 |
Jumlah tempat | 342 |
Jumlah kutipan kertas | 110.975 |
Jumlah kolaborasi penulis | 142.450 |
Diameter jaringan kutipan | 22 |
Diameter jaringan kolaborasi | 15 |
Beberapa di antaranya tidak akurat, atau hanya menjelaskan salah satu sumber data. Sumber yang berbeda dalam kumpulan data berisi subkumpulan data yang berbeda; misalnya, kutipan dilaporkan untuk beberapa makalah yang tidak memiliki file papers_text/
yang sesuai (misalnya, L08-1098
).
aan/release/2013/acl.txt
Ukuran | Nilai |
---|---|
mengutip → hubungan yang dikutip | 110.930 |
makalah kutipan yang unik | 16.554 |
rata-rata dikutip per mengutip | 6.7011 |
makalah yang dikutip unik | 12.840 |
rata-rata mengutip per dikutip | 8.6394 |
makalah unik | 18.160 |
makalah unik yang mengutip dan dikutip | 11.234 |
10 makalah yang paling banyak dikutip | # makalah yang mengutip | penulis | judul |
---|---|---|---|
J93-2004 | 928 | Mitchell dkk. | Membangun Kumpulan Bahasa Inggris Beranotasi Besar: Linguistik Komputasi Penn Treebank |
P02-1040 | 891 | Papineni dkk. | Bleu: Metode Evaluasi Otomatis Terjemahan Mesin |
J93-2003 | 729 | Coklat dkk. | Matematika Terjemahan Mesin Statistik: Estimasi Parameter |
P03-1021 | 667 | Oh & Josef | Pelatihan Tingkat Kesalahan Minimum Dalam Terjemahan Mesin Statistik |
J03-1002 | 656 | Oh & Josef | Perbandingan Sistematis Berbagai Model Penyelarasan Statistik |
P07-2045 | 591 | Koehn dkk. | Moses: Perangkat Sumber Terbuka untuk Terjemahan Mesin Statistik |
N03-1017 | 556 | Koehn dkk. | Terjemahan Berbasis Frasa Statistik |
P03-1054 | 394 | Klein & Manning | Parsing Tidak Dileksikalisasi yang Akurat |
J96-1002 | 376 | Berger dkk. | Pendekatan Entropi Maksimum Untuk Pemrosesan Bahasa Alami |
A00-2018 | 371 | Charniak | Parser yang Terinspirasi Entropi Maksimum |
10 makalah yang paling banyak dikutip | # makalah yang dikutip |
---|---|
Hlm.10-1142 | 88 |
J10-3003 | 80 |
W13-4917 | 71 |
W13-2201 | 65 |
J12-1006 | 62 |
J98-1001 | 59 |
J13-2003 | 59 |
J07-4004 | 57 |
J11-2002 | 52 |
H11-1108 | 52 |
aan/release/2013/acl-metadata.txt
Sejujurnya, format file ini membingungkan. Struktur umumnya mirip dengan BibTeX, tetapi tidak ada parser BibTeX yang dapat menanganinya. Lebih buruk lagi, campuran pengkodeannya gila! Jika ftfy
mencari studi kasus dunia nyata yang hebat, inilah jawabannya.
author
hilang, W10-4238
, dan 16.308 urutan author
unik ( author
mencantumkan semua penulis untuk makalah itu).aan/papers_text/???-????.txt
Ada banyak file lain di direktori ini; beberapa makalah disegmentasi menjadi bagian isi dan referensi; ada beberapa file yang sepertinya dimaksudkan untuk dimasukkan ke dalam aan/release/2013/
; dan banyak file yang cocok dengan pola ini kosong.
papers_text/
.papers_text/
. Terlepas dari kekurangan ini, ACL Anthology Network adalah sumber daya yang bagus; terima kasih banyak kepada banyak kontributor.
Dragomir R. Radev, Pradeep Muthukrishnan, Vahed Qazvinian, Amjad Abu-Jbara. 2013. Korpus Jaringan Antologi ACL. Sumber Daya dan Evaluasi Bahasa 47 (4), hlm.919–944. 10.1007/s10579-012-9211-2.
Hak Cipta 2016–2018 Christopher Brown. Berlisensi MIT.