aanrelease2013.tar.gz
はめちゃくちゃです。
papers_text/
ファイル (PDF から抽出されたプレーン テキスト) の多くには問題があります。P00-1032
、 W06-3709
)T75-2033
から、使用できないもの (例: J79-1013
))C73-2029
)L08-1302
) Makefile
問題と関連するクリーンアップ作業に関するドキュメントを宣言的に提供します。
このリポジトリには元のデータは含まれておらず、プログラムによる修正方法の説明のみが含まれています。
実行するには、ルート ディレクトリでmake
呼び出します。
ミシガン大学 CLAIR グループの ACL アンソロジー ネットワーク インターフェイスは、次の統計を報告します。
測定 | 価値 |
---|---|
論文数 | 21,212 |
著者の数 | 17,792 |
会場数 | 342 |
論文引用数 | 110,975 |
著者とのコラボレーションの数 | 142,450 |
引用ネットワークの直径 | 22 |
コラボレーションネットワークの直径 | 15 |
これらの一部は不正確であるか、データ ソースの 1 つだけを説明しています。データセット内のさまざまなソースには、データのさまざまなサブセットが含まれます。たとえば、対応するpapers_text/
ファイル(例: L08-1098
)を持たない一部の論文について引用が報告されます。
aan/release/2013/acl.txt
測定 | 価値 |
---|---|
引用→引用された関係 | 110,930 |
ユニークな引用論文 | 16,554 |
平均引用ごとに引用 | 6.7011 |
ユニークな引用論文 | 12,840 |
平均引用ごとに引用する | 8.6394 |
ユニークな論文 | 18,160 |
引用および引用されるユニークな論文 | 11,234 |
最も多く引用された論文トップ10 | 引用した論文の数 | 著者 | タイトル |
---|---|---|---|
J93-2004 | 928 | ミッチェルら。 | 注釈付きの大規模な英語コーパスの構築: ペン・ツリーバンク計算言語学 |
P02-1040 | 891 | パピネニら。 | Bleu: 機械翻訳の自動評価方法 |
J93-2003 | 729 | ブラウンら。 | 統計的機械翻訳の数学: パラメータ推定 |
P03-1021 | 667 | オク&ヨーゼフ | 統計的機械翻訳の最小エラー率トレーニング |
J03-1002 | 656 | オク&ヨーゼフ | さまざまな統計的調整モデルの体系的な比較 |
P07-2045 | 591 | ケーンら。 | Moses: 統計的機械翻訳用のオープンソース ツールキット |
N03-1017 | 556 | ケーンら。 | 統計的なフレーズベースの翻訳 |
P03-1054 | 394 | クライン&マニング | 正確な語彙化されていない解析 |
J96-1002 | 376 | バーガーら。 | 自然言語処理への最大エントロピー アプローチ |
A00-2018 | 371 | チャーニアック | 最大エントロピーに基づいたパーサー |
最も多く引用された論文トップ10 | 引用された論文の数 |
---|---|
P10-1142 | 88 |
J10-3003 | 80 |
W13-4917 | 71 |
W13-2201 | 65 |
J12-1006 | 62 |
J98-1001 | 59 |
J13-2003 | 59 |
J07-4004 | 57 |
J11-2002 | 52 |
D11-1108 | 52 |
aan/release/2013/acl-metadata.txt
率直に言って、このファイルのフォーマットはわかりにくいです。一般的な構造は BibTeX に似ていますが、BibTeX パーサーはおそらくそれを処理できません。さらに悪いことに、エンコーディングの混在は非常識です。 ftfy
現実世界の優れたケーススタディを探しているとしたら、これがそれでしょう。
author
1 人、 W10-4238
、および 16,308 個の一意のauthor
シーケンスがあります ( author
は、その論文のすべての著者がリストされています)。aan/papers_text/???-????.txt
このディレクトリには他にもたくさんのファイルがあります。一部の論文は本文と参考文献のセクションに分かれています。 aan/release/2013/
に入れることを意図していたと思われるファイルがいくつかあります。そして、このパターンに一致するファイルの多くは空です。
papers_text/
に対応するファイルがあります。papers_text/
に対応するファイルがあります。 これらの欠陥にもかかわらず、ACL アンソロジー ネットワークは素晴らしいリソースです。多くの貢献者に感謝します。
ドラゴミル・R・ラデフ、プラディープ・ムトゥクリシュナン、ヴァヘド・カズヴィニアン、アムジャド・アブ・ジバラ。 2013. ACL アンソロジー ネットワーク コーパス。言語リソースと評価 47 (4)、919 ~ 944 ページ。 10.1007/s10579-012-9211-2。
著作権 2016–2018 クリストファー ブラウン。 MITライセンス取得済み。