aanrelease2013.tar.gz
est un gâchis.
papers_text/
(texte brut extrait du PDF) présentent des problèmes :P00-1032
, W06-3709
)T75-2033
, à inutilisable, par exemple, J79-1013
).C73-2029
)L08-1302
) Makefile
fournit de manière déclarative une documentation sur les problèmes et le travail de nettoyage impliqué.
Ce référentiel ne contient aucune des données originales, seulement une description programmatique de la façon de y remédier.
Pour exécuter, appelez make
dans le répertoire racine.
L'interface ACL Anthology Network de l'Université du Michigan CLAIR Group rapporte les statistiques suivantes :
Mesure | Valeur |
---|---|
Nombre de papiers | 21 212 |
Nombre d'auteurs | 17 792 |
Nombre de lieux | 342 |
Nombre de citations d'articles | 110 975 |
Nombre de collaborations avec des auteurs | 142 450 |
Diamètre du réseau de citations | 22 |
Diamètre du réseau de collaboration | 15 |
Certaines d’entre elles sont inexactes ou ne décrivent qu’une seule des sources de données. Différentes sources de l'ensemble de données contiennent différents sous-ensembles de données ; par exemple, des citations sont rapportées pour certains articles qui n'ont pas de fichier papers_text/
correspondant (par exemple, L08-1098
).
aan/release/2013/acl.txt
Mesure | Valeur |
---|---|
citation → relations citées | 110 930 |
articles de citation uniques | 16 554 |
moy. cité par citant | 6.7011 |
articles cités uniques | 12 840 |
moy. citant par cité | 8.6394 |
papiers uniques | 18 160 |
des articles uniques qui citent et sont cités | 11 234 |
Top 10 des articles les plus cités | Nombre d'articles citant | auteurs | titre |
---|---|---|---|
J93-2004 | 928 | Mitchell et coll. | Construire un vaste corpus annoté d’anglais : la linguistique computationnelle de Penn Treebank |
P02-1040 | 891 | Papineni et coll. | Bleu : une méthode d'évaluation automatique de la traduction automatique |
J93-2003 | 729 | Brown et coll. | Les mathématiques de la traduction automatique statistique : estimation des paramètres |
P03-1021 | 667 | Och et Joseph | Formation sur le taux d'erreur minimum en traduction automatique statistique |
J03-1002 | 656 | Och et Joseph | Une comparaison systématique de divers modèles d'alignement statistique |
P07-2045 | 591 | Koehn et coll. | Moses : boîte à outils Open Source pour la traduction automatique statistique |
N03-1017 | 556 | Koehn et coll. | Traduction statistique basée sur des phrases |
P03-1054 | 394 | Klein & Manning | Analyse précise non lexicalisée |
J96-1002 | 376 | Berger et coll. | Une approche d'entropie maximale pour le traitement du langage naturel |
A00-2018 | 371 | Charniak | Un analyseur inspiré de l'entropie maximale |
Top 10 des articles les plus cités | Nombre d'articles cités |
---|---|
P10-1142 | 88 |
J10-3003 | 80 |
W13-4917 | 71 |
W13-2201 | 65 |
J12-1006 | 62 |
J98-1001 | 59 |
J13-2003 | 59 |
J07-4004 | 57 |
J11-2002 | 52 |
D11-1108 | 52 |
aan/release/2013/acl-metadata.txt
Le formatage de ce fichier est franchement déroutant. La structure générale est BibTeX-esque, mais aucun analyseur BibTeX ne pourrait la gérer. Pire, le mélange des encodages est dingue ! Si ftfy
recherchait une excellente étude de cas du monde réel, ce serait celle-là.
author
manquant, W10-4238
, et 16 308 séquences author
uniques ( author
répertorie tous les auteurs de cet article).aan/papers_text/???-????.txt
Il y a beaucoup d'autres fichiers dans ce répertoire ; certains articles sont segmentés en sections de corps et de références ; certains fichiers semblent être destinés à être placés dans aan/release/2013/
; et la plupart des fichiers correspondant à ce modèle sont vides.
papers_text/
.papers_text/
. Malgré ces défauts, l’ACL Anthology Network est une excellente ressource ; un grand merci aux nombreux contributeurs.
Dragomir R. Radev, Pradeep Muthukrishnan, Vahed Qazvinian, Amjad Abu-Jbara. 2013. Corpus du réseau d'anthologie ACL. Ressources linguistiques et évaluation 47 (4), pp. 919-944. 10.1007/s10579-012-9211-2.
Copyright 2016-2018 Christopher Brown. Licence MIT.