aanrelease2013.tar.gz
ist ein Chaos.
papers_text/
-Dateien (aus dem PDF extrahierter reiner Text) weisen Probleme auf:P00-1032
, W06-3709
).T75-2033
, bis hin zu unbrauchbar, z. B. J79-1013
).C73-2029
).L08-1302
). Makefile
stellt deklarativ eine Dokumentation der Probleme und der damit verbundenen Bereinigungsarbeiten bereit.
Dieses Repository enthält keine der Originaldaten, sondern nur eine programmatische Beschreibung, wie das Problem behoben werden kann.
Rufen Sie zum Ausführen make
im Stammverzeichnis auf.
Die ACL Anthology Network-Schnittstelle der University of Michigan CLAIR Group meldet die folgenden Statistiken:
Messen | Wert |
---|---|
Anzahl der Papiere | 21.212 |
Anzahl der Autoren | 17.792 |
Anzahl der Veranstaltungsorte | 342 |
Anzahl der Papierzitate | 110.975 |
Anzahl der Autorenkooperationen | 142.450 |
Durchmesser des Zitiernetzwerks | 22 |
Durchmesser des Kollaborationsnetzwerks | 15 |
Einige davon sind ungenau oder beschreiben nur eine der Datenquellen. Verschiedene Quellen im Datensatz enthalten unterschiedliche Teilmengen der Daten; Beispielsweise werden Zitate für einige Arbeiten gemeldet, für die es keine entsprechende papers_text/
-Datei gibt (z. B. L08-1098
).
aan/release/2013/acl.txt
Messen | Wert |
---|---|
Zitieren → zitierte Beziehungen | 110.930 |
einzigartige zitierende Papiere | 16.554 |
Durchschn. pro Zitat zitiert | 6.7011 |
einzigartige zitierte Artikel | 12.840 |
Durchschn. Zitieren pro zitiert | 8.6394 |
einzigartige Papiere | 18.160 |
einzigartige Arbeiten, die sowohl zitieren als auch zitiert werden | 11.234 |
Top 10 der am häufigsten zitierten Artikel | Anzahl der zitierten Artikel | Autoren | Titel |
---|---|---|---|
J93-2004 | 928 | Mitchell et al. | Aufbau eines großen kommentierten Englischkorpus: The Penn Treebank Computational Linguistics |
P02-1040 | 891 | Papineni et al. | Bleu: Eine Methode zur automatischen Bewertung maschineller Übersetzung |
J93-2003 | 729 | Brown et al. | Die Mathematik der statistischen maschinellen Übersetzung: Parameterschätzung |
P03-1021 | 667 | Och & Josef | Training zur minimalen Fehlerrate in statistischer maschineller Übersetzung |
J03-1002 | 656 | Och & Josef | Ein systematischer Vergleich verschiedener statistischer Ausrichtungsmodelle |
P07-2045 | 591 | Koehn et al. | Moses: Open-Source-Toolkit für statistische maschinelle Übersetzung |
N03-1017 | 556 | Koehn et al. | Statistische Phrasenbasierte Übersetzung |
P03-1054 | 394 | Klein & Manning | Genaues unlexikalisiertes Parsen |
J96-1002 | 376 | Berger et al. | Ein Maximum-Entropie-Ansatz für die Verarbeitung natürlicher Sprache |
A00-2018 | 371 | Charniak | Ein von der Maximalentropie inspirierter Parser |
Top 10 der am häufigsten zitierten Artikel | Anzahl der zitierten Artikel |
---|---|
P10-1142 | 88 |
J10-3003 | 80 |
W13-4917 | 71 |
W13-2201 | 65 |
J12-1006 | 62 |
J98-1001 | 59 |
J13-2003 | 59 |
J07-4004 | 57 |
J11-2002 | 52 |
D11-1108 | 52 |
aan/release/2013/acl-metadata.txt
Die Formatierung dieser Datei ist ehrlich gesagt verwirrend. Die allgemeine Struktur ähnelt BibTeX, aber kein BibTeX-Parser könnte damit umgehen. Schlimmer noch, die Mischung der Kodierungen ist verrückt! Wenn ftfy
jemals nach einer großartigen Fallstudie aus der Praxis suchen würde, dann wäre es diese.
author
, W10-4238
, und 16.308 eindeutige author
( author
listet alle Autoren für diesen Artikel auf).aan/papers_text/???-????.txt
Es gibt viele andere Dateien in diesem Verzeichnis; Einige der Arbeiten sind in Hauptteil- und Referenzabschnitte unterteilt. Es gibt einige Dateien, die den Anschein erwecken, als wären sie für aan/release/2013/
gedacht; und viele der Dateien, die diesem Muster entsprechen, sind leer.
papers_text/
verfügen.papers_text/
. Trotz dieser Mängel ist das ACL Anthology Network eine großartige Ressource; vielen Dank an die vielen Mitwirkenden.
Dragomir R. Radev, Pradeep Muthukrishnan, Vahed Qazvinian, Amjad Abu-Jbara. 2013. Das ACL Anthology Network Corpus. Sprachressourcen und Bewertung 47 (4), S. 919–944. 10.1007/s10579-012-9211-2.
Copyright 2016–2018 Christopher Brown. MIT-Lizenz.