aanrelease2013.tar.gz
是一团糟。
papers_text/
文件(从 PDF 中提取的纯文本)都存在问题:P00-1032
、 W06-3709
)T75-2033
到无法使用,例如J79-1013
),其他内容在不同程度上都是乱码。C73-2029
)L08-1302
) Makefile
以声明方式提供了一些有关问题和所涉及的清理工作的文档。
该存储库不包含任何原始数据,仅包含如何修复它的编程描述。
要运行,请在根目录中调用make
。
密歇根大学 CLAIR Group 的 ACL Anthology Network 界面报告了以下统计数据:
措施 | 价值 |
---|---|
论文数量 | 21,212 |
作者人数 | 17,792 |
场馆数量 | 第342章 |
论文引用次数 | 110,975 |
作者合作数量 | 142,450 |
引文网络直径 | 22 号 |
协作网络直径 | 15 |
其中一些不准确,或者仅描述了其中一种数据源。数据集中的不同来源包含不同的数据子集;例如,报告的某些论文的引用没有相应的papers_text/
文件(例如L08-1098
)。
aan/release/2013/acl.txt
措施 | 价值 |
---|---|
引用→被引用关系 | 110,930 |
独特的施引论文 | 16,554 |
平均。被引用次数 | 6.7011 |
独特被引论文 | 12,840 |
平均。被引用次数 | 8.6394 |
独特的论文 | 18,160 |
引用和被引用的独特论文 | 11,234 |
被引用次数最多的 10 篇论文 | 论文引用次数 | 作者 | 标题 |
---|---|---|---|
J93-2004 | 928 | 米切尔等人。 | 构建大型英语注释语料库:宾夕法尼亚大学树库计算语言学 |
P02-1040 | 第891章 | 帕皮尼尼等人。 | Bleu:一种机器翻译自动评估方法 |
J93-2003 | 第729章 | 布朗等人。 | 统计机器翻译的数学:参数估计 |
P03-1021 | 第667章 | 奥赫和约瑟夫 | 统计机器翻译中的最小错误率训练 |
J03-1002 | 第656章 | 奥赫和约瑟夫 | 各种统计对齐模型的系统比较 |
P07-2045 | 第591章 | 科恩等人。 | Moses:统计机器翻译开源工具包 |
N03-1017 | 第556章 | 科恩等人。 | 基于统计短语的翻译 |
P03-1054 | 第394章 | 克莱因和曼宁 | 准确的非词法分析 |
J96-1002 | 第376章 | 伯杰等人。 | 自然语言处理的最大熵方法 |
A00-2018 | 第371章 | 查尼亚克 | 受最大熵启发的解析器 |
被引用次数最多的 10 篇论文 | 被引用论文数量 |
---|---|
P10-1142 | 88 |
J10-3003 | 80 |
W13-4917 | 71 |
W13-2201 | 65 |
J12-1006 | 62 |
J98-1001 | 59 |
J13-2003 | 59 |
J07-4004 | 57 |
J11-2002 | 52 |
D11-1108 | 52 |
aan/release/2013/acl-metadata.txt
坦率地说,该文件的格式令人困惑。一般结构是 BibTeX 式的,但没有 BibTeX 解析器可以处理它。更糟糕的是,编码的混合是疯狂的!如果ftfy
一直在寻找一个伟大的现实世界案例研究,那么这就是它。
author
, W10-4238
和 16,308 个独特的author
序列( author
列出了该论文的所有作者)。aan/papers_text/???-????.txt
该目录下还有很多其他文件;有些论文分为正文和参考文献部分;有一些文件看起来像是打算放在aan/release/2013/
中;并且许多与此模式匹配的文件都是空的。
papers_text/
中有相应的文件。papers_text/
中有相应的文件。 尽管存在这些缺陷,ACL 选集网络仍然是一个很好的资源;非常感谢众多贡献者。
Dragomir R. Radev、Pradeep Muthukrishnan、Vahed Qazvinian、Amjad Abu-Jbara。 2013。ACL 选集网络语料库。语言资源和评估 47 (4),第 919–944 页。 10.1007/s10579-012-9211-2。
版权所有 2016–2018 克里斯托弗·布朗。麻省理工学院许可。