aanrelease2013.tar.gz
é uma bagunça.
papers_text/
(texto simples extraído do PDF) apresentam problemas:P00-1032
, W06-3709
)T75-2033
, a inutilizável, por exemplo, J79-1013
)C73-2029
)L08-1302
) Makefile
fornece declarativamente alguma documentação dos problemas e do trabalho de limpeza envolvido.
Este repositório não contém nenhum dado original, apenas uma descrição programática de como corrigi-lo.
Para executar, chame make
no diretório raiz.
A interface ACL Anthology Network do Grupo CLAIR da Universidade de Michigan relata as seguintes estatísticas:
Medir | Valor |
---|---|
Número de artigos | 21.212 |
Número de autores | 17.792 |
Número de locais | 342 |
Número de citações de artigos | 110.975 |
Número de colaborações de autores | 142.450 |
Diâmetro da rede de citação | 22 |
Diâmetro da rede de colaboração | 15 |
Algumas delas são imprecisas ou descrevem apenas uma das fontes de dados. Diferentes fontes no conjunto de dados contêm diferentes subconjuntos de dados; por exemplo, as citações são relatadas para alguns artigos que não possuem um arquivo papers_text/
correspondente (por exemplo, L08-1098
).
aan/release/2013/acl.txt
Medir | Valor |
---|---|
citando → relacionamentos citados | 110.930 |
artigos de citação exclusivos | 16.554 |
média. citado por citação | 6.7011 |
artigos citados únicos | 12.840 |
média. citando por citado | 8.6394 |
papéis exclusivos | 18.160 |
artigos exclusivos que citam e são citados | 11.234 |
Os 10 artigos mais citados | # de artigos citando | autores | título |
---|---|---|---|
J93-2004 | 928 | Mitchell et al. | Construindo um grande corpus anotado de inglês: The Penn Treebank Computational Linguistics |
P02-1040 | 891 | Papineni et al. | Bleu: um método para avaliação automática de tradução automática |
J93-2003 | 729 | Brown et al. | A matemática da tradução automática estatística: estimativa de parâmetros |
P03-1021 | 667 | Och e Josef | Treinamento de taxa mínima de erro em tradução automática estatística |
J03-1002 | 656 | Och e Josef | Uma comparação sistemática de vários modelos de alinhamento estatístico |
P07-2045 | 591 | Koehn et al. | Moses: kit de ferramentas de código aberto para tradução automática estatística |
N03-1017 | 556 | Koehn et al. | Tradução baseada em frases estatísticas |
P03-1054 | 394 | Klein e Manning | Análise não lexicalizada precisa |
J96-1002 | 376 | Berger et al. | Uma abordagem de entropia máxima para processamento de linguagem natural |
A00-2018 | 371 | Charniak | Um analisador inspirado na máxima entropia |
Os 10 artigos mais citados | Nº de artigos citados |
---|---|
P10-1142 | 88 |
J10-3003 | 80 |
W13-4917 | 71 |
W13-2201 | 65 |
J12-1006 | 62 |
J98-1001 | 59 |
J13-2003 | 59 |
J07-4004 | 57 |
J11-2002 | 52 |
D11-1108 | 52 |
aan/release/2013/acl-metadata.txt
A formatação deste arquivo é, francamente, confusa. A estrutura geral é do tipo BibTeX, mas nenhum analisador BibTeX poderia lidar com isso. Pior, a mistura de codificações é uma loucura! Se ftfy
estivesse procurando um ótimo estudo de caso do mundo real, seria esse.
author
ausente, W10-4238
, e 16.308 sequências únicas author
( author
lista todos os autores desse artigo).aan/papers_text/???-????.txt
Existem muitos outros arquivos neste diretório; alguns dos artigos estão segmentados em seções de corpo e referências; existem alguns arquivos que parecem ser destinados a aan/release/2013/
; e muitos dos arquivos que correspondem a esse padrão estão vazios.
papers_text/
.papers_text/
. Apesar dessas falhas, a ACL Anthology Network é um excelente recurso; muito obrigado aos muitos contribuidores.
Dragomir R. Radev, Pradeep Muthukrishnan, Vahed Qazvinian, Amjad Abu-Jbara. 2013. Corpus da Rede de Antologia ACL. Recursos linguísticos e avaliação 47 (4), pp. 10.1007/s10579-012-9211-2.
Direitos autorais 2016–2018 Christopher Brown. Licenciado pelo MIT.