aanrelease2013.tar.gz
是一團糟。
papers_text/
文件(從 PDF 提取的純文字)都存在問題:P00-1032
、 W06-3709
)T75-2033
到無法使用,例如J79-1013
),其他內容在不同程度上都是亂碼。C73-2029
)L08-1302
) Makefile
以聲明方式提供了一些有關問題和所涉及的清理工作的文件。
該存儲庫不包含任何原始數據,僅包含如何修復它的程式描述。
要運行,請在根目錄中呼叫make
。
密西根大學 CLAIR Group 的 ACL Anthology Network 介面報告了以下統計數據:
措施 | 價值 |
---|---|
論文數量 | 21,212 |
作者人數 | 17,792 |
場館數量 | 第342章 |
論文引用次數 | 110,975 |
作者合作數量 | 142,450 |
引文網直徑 | 22 號 |
協作網路直徑 | 15 |
其中一些不準確,或僅描述了其中一種資料來源。資料集中的不同來源包含不同的資料子集;例如,報告的某些論文的引用沒有相應的papers_text/
文件(例如L08-1098
)。
aan/release/2013/acl.txt
措施 | 價值 |
---|---|
引用→被引用關係 | 110,930 |
獨特的施引論文 | 16,554 |
平均。被引用次數 | 6.7011 |
獨特被引用論文 | 12,840 |
平均。被引用次數 | 8.6394 |
獨特的論文 | 18,160 |
引用和被引用的獨特論文 | 11,234 |
被引用次數最多的 10 篇論文 | 論文引用次數 | 作者 | 標題 |
---|---|---|---|
J93-2004 | 928 | 米切爾等人。 | 建構大型英語註釋語料庫:賓州大學樹庫計算語言學 |
P02-1040 | 第891章 | 帕皮尼尼等人。 | Bleu:一種機器翻譯自動評估方法 |
J93-2003 | 第729章 | 布朗等人。 | 統計機器翻譯的數學:參數估計 |
P03-1021 | 第667章 | 奧赫和約瑟夫 | 統計機器翻譯中的最小誤差率訓練 |
J03-1002 | 第656章 | 奧赫和約瑟夫 | 各種統計對齊模型的系統比較 |
P07-2045 | 第591章 | 科恩等人。 | Moses:統計機器翻譯開源工具包 |
N03-1017 | 第556章 | 科恩等人。 | 基於統計片語的翻譯 |
P03-1054 | 第394章 | 克萊恩和曼寧 | 準確的非詞法分析 |
J96-1002 | 第376章 | 伯傑等。 | 自然語言處理的最大熵方法 |
A00-2018 | 第371章 | 查尼亞克 | 受最大熵啟發的解析器 |
被引用次數最多的 10 篇論文 | 被引用論文數量 |
---|---|
P10-1142 | 88 |
J10-3003 | 80 |
W13-4917 | 71 |
W13-2201 | 65 |
J12-1006 | 62 |
J98-1001 | 59 |
J13-2003 | 59 |
J07-4004 | 57 |
J11-2002 | 52 |
D11-1108 | 52 |
aan/release/2013/acl-metadata.txt
坦白說,該文件的格式令人困惑。一般結構是 BibTeX 式的,但沒有 BibTeX 解析器可以處理它。更糟的是,編碼的混合是瘋狂的!如果ftfy
一直在尋找一個偉大的現實世界案例研究,那麼這就是它。
author
, W10-4238
和 16,308 個獨特的author
序列( author
列出了該論文的所有作者)。aan/papers_text/???-????.txt
該目錄下還有很多其他文件;有些論文分為正文和參考文獻部分;有一些文件看起來像是打算放在aan/release/2013/
中;並且許多與此模式匹配的文件都是空的。
papers_text/
中有相應的文件。papers_text/
中有相應的文件。 儘管存在這些缺陷,ACL 選集網路仍然是一個很好的資源;非常感謝眾多貢獻者。
Dragomir R. Radev、Pradeep Muthukrishnan、Vahed Qazvinian、Amjad Abu-Jbara。 2013。語言資源與評估 47 (4),第 919–944 頁。 10.1007/s10579-012-9211-2。
版權所有 2016–2018 克里斯多福布朗。麻省理工學院許可。