ACL anthology corpus herunterladen – ACL anthology corpus -Quellcode herunterladen

ACL anthology corpus

Anderer Quellcode

1.0.0

Herunterladen

Das ACL OCL Corpus: Förderung der offenen Wissenschaft in der Computerlinguistik

Dieses Repository stellt Volltext und Metadaten für die ACL-Anthologiesammlung (80.000 Artikel/Poster, Stand September 2022) bereit, einschließlich PDF-Dateien und Grobid-Extraktionen der PDFs.

Wie unterscheidet sich dies von dem, was die ACL-Anthologie bietet und was bereits existiert?

Wir stellen PDFs, Volltexte, Referenzen und andere von Grobid aus den PDFs extrahierte Details zur Verfügung, während ACL Anthology nur Abstracts bereitstellt.
Es gibt ein ähnliches Korpus namens ACL Anthology Network, das jedoch mit nur 23.000 Artikeln vom Dezember 2016 sein Alter zeigt.

AKTUALISIEREN

Die Daten werden jetzt auf Huggingface gehostet! Bitte laden Sie es von dort herunter. Es ist das aktuellste. https://huggingface.co/datasets/ACL-OCL/acl-anthology-corpus

Ziel ist es, dieses Korpus auf dem neuesten Stand zu halten und ein umfassendes Repository der gesamten ACL-Sammlung bereitzustellen.

Dieses Repository stellt Daten für 80,013 ACL-Artikel/Poster bereit –

Alle PDFs in der ACL-Anthologie: Größe 45G hier herunterladen
? Alle Bib-Dateien in der ACL-Anthologie mit Abstracts: Größe 172 MB , hier herunterladen
?️ Rohe Grobid-Extraktionsergebnisse für alle ACL-Anthologie-PDFs, einschließlich Volltext und Referenzen: Größe 3,6 GB , hier herunterladen
? Datenrahmen mit extrahierten Metadaten (Tabelle unten mit Details) und Volltext der Sammlung zur Analyse: Größe 489 MB, hier herunterladen

Spaltenname	Beschreibung
`acl_id`	eindeutige ACL-ID
`abstract`	Zusammenfassung extrahiert von GROBID
`full_text`	Volltext extrahiert von GROBID
`corpus_paper_id`	Semantic Scholar-ID
`pdf_hash`	sha1-Hash des PDFs
`numcitedby`	Anzahl der Zitate aus S2
`url`	Link zur Veröffentlichung
`publisher`	-
`address`	Adresse der Konferenz
`year`	-
`month`	-
`booktitle`	-
`author`	Liste der Autoren
`title`	Titel der Arbeit
`pages`	-
`doi`	-
`number`	-
`volume`	-
`journal`	-
`editor`	-
`isbn`	-

 >> > import pandas as pd
>> > df = pd . read_parquet ( 'acl-publication-info.74k.parquet' )
>> > df
         acl_id                                           abstract                                          full_text  corpus_paper_id                                  pdf_hash  ...  number volume journal editor  isbn
0      O02 - 2002  There is a need to measure word similarity whe ...  There is a need to measure word similarity whe ...         18022704  0b0 9178 ac8d17a92f16140365363d8df88c757d0  ...    None   None    None   None  None
1      L02 - 1310                                                                                                                8220988  8 d5e31610bc82c2abc86bc20ceba684c97e66024  ...    None   None    None   None  None
2      R13 - 1042  Thread disentanglement is the task of separati ...  Thread disentanglement is the task of separati ...         16703040  3 eb736b17a5acb583b9a9bd99837427753632cdb  ...    None   None    None   None  None
3      W05 - 0819  In this paper , we describe a word alignment al ...  In this paper , we describe a word alignment al ...          1215281  b20450f67116e59d1348fc472cfc09f96e348f55  ...    None   None    None   None  None
4      L02 - 1309                                                                                                               18078432  011e943 b64a78dadc3440674419821ee080f0de3  ...    None   None    None   None  None
...         ...                                                ...                                                ...              ...                                       ...  ...     ...    ...     ...    ...   ...
73280  P99 - 1002  This paper describes recent progress and the a ...  This paper describes recent progress and the a ...           715160  ab17a01f142124744c6ae425f8a23011366ec3ee  ...    None   None    None   None  None
73281  P00 - 1009  We present an LFG - DOP parser which uses fragme ...  We present an LFG - DOP parser which uses fragme ...          1356246  ad005b3fd0c867667118482227e31d9378229751  ...    None   None    None   None  None
73282  P99 - 1056  The processes through which readers evoke ment ...  The processes through which readers evoke ment ...          7277828  924 cf7a4836ebfc20ee094c30e61b949be049fb6  ...    None   None    None   None  None
73283  P99 - 1051  This paper examines the extent to which verb d ...  This paper examines the extent to which verb d ...          1829043  6 b1f6f28ee36de69e8afac39461ee1158cd4d49a  ...    None   None    None   None  None
73284  P00 - 1013  Spoken dialogue managers have benefited from u ...  Spoken dialogue managers have benefited from u ...         10903652  483 c818c09e39d9da47103fbf2da8aaa7acacf01  ...    None   None    None   None  None

[ 73285 rows x 21 columns ]

Die bereitgestellte ACL-ID stimmt auch mit der S2-API überein –

https://api.semanticscholar.org/graph/v1/paper/ACL:P83-1025

Die API kann verwendet werden, um weitere Informationen für jeden Artikel im Korpus abzurufen.

Textgenerierung auf Huggingface

Wir haben das distilgpt2-Modell von Huggingface mithilfe des Volltexts aus diesem Korpus verfeinert. Das Modell ist für die Generierungsaufgabe trainiert.

Demo zur Textgenerierung: https://huggingface.co/shaurya0512/distilgpt2-finetune-acl22

Beispiel:

 >> > from transformers import AutoTokenizer , AutoModelForCausalLM
>> > tokenizer = AutoTokenizer . from_pretrained ( "shaurya0512/distilgpt2-finetune-acl22" )
>> > model = AutoModelForCausalLM . from_pretrained ( "shaurya0512/distilgpt2-finetune-acl22" )
>> >
>> > input_context = "We introduce a new language representation"
>> > input_ids = tokenizer . encode ( input_context , return_tensors = "pt" )  # encode input context
>> > outputs = model . generate (
...     input_ids = input_ids , max_length = 128 , temperature = 0.7 , repetition_penalty = 1.2
... )  # generate sequences
>> > print ( f"Generated: { tokenizer . decode ( outputs [ 0 ], skip_special_tokens = True ) } " )

 Generated: We introduce a new language representation for the task of sentiment classification. We propose an approach to learn representations from   
unlabeled data, which is based on supervised learning and can be applied in many applications such as machine translation (MT) or information retrieval   
systems where labeled text has been used by humans with limited training time but no supervision available at all. Our method achieves state-oftheart   
results using only one dataset per domain compared to other approaches that use multiple datasets simultaneously, including BERTScore(Devlin et al.,   
2019; Liu & Lapata, 2020b ) ; RoBERTa+LSTM + L2SRC -

TODO

~~Verknüpfen Sie das ACL-Korpus mit Semantic Scholar (S2), Quellen wie S2ORC~~
Extrahieren Sie Abbildungen und Bildunterschriften aus dem ACL-Korpus mit pdffigures - Scientific-Figure-Captioning
Halten Sie einen Veröffentlichungsplan bereit, um das Korpus auf dem neuesten Stand zu halten.
ACL-Zitierdiagramm
~~Erweitern Sie Metadaten mit der Zuordnung von Bib-Dateien – schließen Sie Autoren ein~~
~~Fügen Sie Zitierzahlen für Aufsätze hinzu~~
Verwenden Sie ForeCite, um wirkungsvolle Schlüsselwörter aus dem Korpus zu extrahieren
Datensätze mit paperswithcode verknüpfen? - Ich weiß nicht, wie nützlich das ist
Haben Sie einige Statistiken zu den Daten – Sprachvielfalt; Geo-Diversität; wenn möglich Explorer
Zero-Shot-Klassifizierung Wir hoffen, dass dieses Korpus für Analysen hilfreich sein kann, die für die ACL-Community relevant sind.

Bitte zitieren/markieren? Diese Seite, wenn Sie dieses Korpus verwenden

Unter Berufung auf das ACL Anthology Corpus

Wenn Sie dieses Korpus in Ihrer Forschung verwenden, verwenden Sie bitte den folgenden BibTeX-Eintrag:

    @Misc{acl_anthology_corpus,
        author =       {Shaurya Rohatgi},
        title =        {ACL Anthology Corpus with Full Text},
        howpublished = {Github},
        year =         {2022},
        url =          {https://github.com/shauryr/ACL-anthology-corpus}
    }