aanrelease2013.tar.gz
es un desastre.
papers_text/
(texto sin formato extraído del PDF) tienen problemas:P00-1032
, W06-3709
).T75-2033
, hasta inutilizable, por ejemplo, J79-1013
).C73-2029
)L08-1302
). Makefile
proporciona de forma declarativa cierta documentación de los problemas y el trabajo de limpieza involucrado.
Este repositorio no contiene ninguno de los datos originales, solo una descripción programática de cómo solucionarlo.
Para ejecutarlo, llame make
en el directorio raíz.
La interfaz ACL Anthology Network del Grupo CLAIR de la Universidad de Michigan informa las siguientes estadísticas:
Medida | Valor |
---|---|
Número de artículos | 21,212 |
Número de autores | 17.792 |
Número de sedes | 342 |
Número de citas de artículos | 110.975 |
Número de colaboraciones de autores | 142.450 |
Diámetro de la red de citas | 22 |
Diámetro de la red de colaboración | 15 |
Algunos de ellos son inexactos o describen sólo una de las fuentes de datos. Las diferentes fuentes del conjunto de datos contienen diferentes subconjuntos de datos; por ejemplo, se informan las citas de algunos artículos que no tienen un archivo papers_text/
correspondiente (por ejemplo, L08-1098
).
aan/release/2013/acl.txt
Medida | Valor |
---|---|
citando → relaciones citadas | 110.930 |
artículos de cita únicos | 16.554 |
promedio citado por citando | 6.7011 |
artículos citados únicos | 12.840 |
promedio citando por citado | 8.6394 |
papeles únicos | 18.160 |
artículos únicos que citan y son citados | 11.234 |
Los 10 artículos más citados | # de artículos que citan | autores | título |
---|---|---|---|
J93-2004 | 928 | Mitchell y cols. | Creación de un gran corpus anotado en inglés: la lingüística computacional de Penn Treebank |
P02-1040 | 891 | Papineni et al. | Bleu: un método para la evaluación automática de la traducción automática |
J93-2003 | 729 | Brown y cols. | Las matemáticas de la traducción automática estadística: estimación de parámetros |
P03-1021 | 667 | Och y Josef | Capacitación sobre la tasa de error mínima en traducción automática estadística |
J03-1002 | 656 | Och y Josef | Una comparación sistemática de varios modelos de alineación estadística |
P07-2045 | 591 | Koehn et al. | Moses: kit de herramientas de código abierto para traducción automática estadística |
N03-1017 | 556 | Koehn et al. | Traducción estadística basada en frases |
P03-1054 | 394 | Klein y Manning | Análisis preciso no lexicalizado |
J96-1002 | 376 | Berger et al. | Un enfoque de máxima entropía para el procesamiento del lenguaje natural |
A00-2018 | 371 | Charniak | Un analizador inspirado en la máxima entropía |
Los 10 artículos más citados | # de artículos citados |
---|---|
P10-1142 | 88 |
J10-3003 | 80 |
W13-4917 | 71 |
W13-2201 | 65 |
J12-1006 | 62 |
J98-1001 | 59 |
J13-2003 | 59 |
J07-4004 | 57 |
J11-2002 | 52 |
D11-1108 | 52 |
aan/release/2013/acl-metadata.txt
El formato de este archivo es, francamente, confuso. La estructura general es similar a BibTeX, pero ningún analizador BibTeX podría manejarla. Peor aún, ¡la mezcla de codificaciones es una locura! Si ftfy
alguna vez estuviera buscando un gran caso de estudio del mundo real, sería este.
author
, W10-4238
, y 16,308 secuencias author
únicas ( author
enumera todos los autores de ese artículo).aan/papers_text/???-????.txt
Hay muchos otros archivos en este directorio; algunos de los artículos están segmentados en secciones de cuerpo y referencias; hay algunos archivos que parecen estar destinados a incluirse en aan/release/2013/
; y muchos de los archivos que coinciden con este patrón están vacíos.
papers_text/
.papers_text/
. A pesar de estos defectos, ACL Anthology Network es un gran recurso; Muchas gracias a los muchos contribuyentes.
Dragomir R. Radev, Pradeep Muthukrishnan, Vahed Qazvinian, Amjad Abu-Jbara. 2013. Corpus de la red de antología ACL. Recursos lingüísticos y evaluación 47 (4), págs. 919–944. 10.1007/s10579-012-9211-2.
Copyright 2016–2018 Christopher Brown. Licencia MIT.