이 저장소는 .pdf 파일 및 pdf의 grobid 추출을 포함하여 ACL 선집 컬렉션(2022년 9월 현재 80,000개의 기사/포스터)에 대한 전체 텍스트 및 메타데이터를 제공합니다.
이제 데이터가 Huggingface에서 호스팅됩니다! 거기에서 다운로드해 주세요. 가장 최신입니다. https://huggingface.co/datasets/ACL-OCL/acl-anthology-corpus
목표는 이 자료를 최신 상태로 유지하고 전체 ACL 컬렉션의 포괄적인 저장소를 제공하는 것입니다.
이 저장소는 80,013
ACL 기사/포스터에 대한 데이터를 제공합니다.
열 이름 | 설명 |
---|---|
acl_id | 고유한 ACL ID |
abstract | GROBID에서 추출한 초록 |
full_text | GROBID로 추출된 전문 |
corpus_paper_id | 의미학자 ID |
pdf_hash | sha1 PDF의 해시 |
numcitedby | S2의 인용 횟수 |
url | 출판 링크 |
publisher | - |
address | 컨퍼런스 주소 |
year | - |
month | - |
booktitle | - |
author | 저자 목록 |
title | 논문 제목 |
pages | - |
doi | - |
number | - |
volume | - |
journal | - |
editor | - |
isbn | - |
>> > import pandas as pd
>> > df = pd . read_parquet ( 'acl-publication-info.74k.parquet' )
>> > df
acl_id abstract full_text corpus_paper_id pdf_hash ... number volume journal editor isbn
0 O02 - 2002 There is a need to measure word similarity whe ... There is a need to measure word similarity whe ... 18022704 0b0 9178 ac8d17a92f16140365363d8df88c757d0 ... None None None None None
1 L02 - 1310 8220988 8 d5e31610bc82c2abc86bc20ceba684c97e66024 ... None None None None None
2 R13 - 1042 Thread disentanglement is the task of separati ... Thread disentanglement is the task of separati ... 16703040 3 eb736b17a5acb583b9a9bd99837427753632cdb ... None None None None None
3 W05 - 0819 In this paper , we describe a word alignment al ... In this paper , we describe a word alignment al ... 1215281 b20450f67116e59d1348fc472cfc09f96e348f55 ... None None None None None
4 L02 - 1309 18078432 011e943 b64a78dadc3440674419821ee080f0de3 ... None None None None None
... ... ... ... ... ... ... ... ... ... ... ...
73280 P99 - 1002 This paper describes recent progress and the a ... This paper describes recent progress and the a ... 715160 ab17a01f142124744c6ae425f8a23011366ec3ee ... None None None None None
73281 P00 - 1009 We present an LFG - DOP parser which uses fragme ... We present an LFG - DOP parser which uses fragme ... 1356246 ad005b3fd0c867667118482227e31d9378229751 ... None None None None None
73282 P99 - 1056 The processes through which readers evoke ment ... The processes through which readers evoke ment ... 7277828 924 cf7a4836ebfc20ee094c30e61b949be049fb6 ... None None None None None
73283 P99 - 1051 This paper examines the extent to which verb d ... This paper examines the extent to which verb d ... 1829043 6 b1f6f28ee36de69e8afac39461ee1158cd4d49a ... None None None None None
73284 P00 - 1013 Spoken dialogue managers have benefited from u ... Spoken dialogue managers have benefited from u ... 10903652 483 c818c09e39d9da47103fbf2da8aaa7acacf01 ... None None None None None
[ 73285 rows x 21 columns ]
제공된 ACL ID는 S2 API와도 일치합니다.
https://api.semanticscholar.org/graph/v1/paper/ACL:P83-1025
API를 사용하여 코퍼스의 각 논문에 대한 추가 정보를 가져올 수 있습니다.
우리는 이 코퍼스의 전체 텍스트를 사용하여 Huggingface의 distilgpt2 모델을 미세 조정했습니다. 모델은 생성 작업을 위해 훈련되었습니다.
텍스트 생성 데모: https://huggingface.co/shaurya0512/distilgpt2-finetune-acl22
예:
>> > from transformers import AutoTokenizer , AutoModelForCausalLM
>> > tokenizer = AutoTokenizer . from_pretrained ( "shaurya0512/distilgpt2-finetune-acl22" )
>> > model = AutoModelForCausalLM . from_pretrained ( "shaurya0512/distilgpt2-finetune-acl22" )
>> >
>> > input_context = "We introduce a new language representation"
>> > input_ids = tokenizer . encode ( input_context , return_tensors = "pt" ) # encode input context
>> > outputs = model . generate (
... input_ids = input_ids , max_length = 128 , temperature = 0.7 , repetition_penalty = 1.2
... ) # generate sequences
>> > print ( f"Generated: { tokenizer . decode ( outputs [ 0 ], skip_special_tokens = True ) } " )
Generated: We introduce a new language representation for the task of sentiment classification. We propose an approach to learn representations from
unlabeled data, which is based on supervised learning and can be applied in many applications such as machine translation (MT) or information retrieval
systems where labeled text has been used by humans with limited training time but no supervision available at all. Our method achieves state-oftheart
results using only one dataset per domain compared to other approaches that use multiple datasets simultaneously, including BERTScore(Devlin et al.,
2019; Liu & Lapata, 2020b ) ; RoBERTa+LSTM + L2SRC -
인용/별표 표시해 주세요. 이 말뭉치를 사용하는 경우 이 페이지
연구에 이 자료를 사용하는 경우 다음 BibTeX 항목을 사용하십시오.
@Misc{acl_anthology_corpus,
author = {Shaurya Rohatgi},
title = {ACL Anthology Corpus with Full Text},
howpublished = {Github},
year = {2022},
url = {https://github.com/shauryr/ACL-anthology-corpus}
}
이 코퍼스의 인용 관련 데이터에 대한 접근을 제공해준 Semantic Scholar에게 감사드립니다.
ACL 선집 코퍼스는 CC BY-NC 4.0에 따라 출시됩니다. 이 자료를 사용하면 해당 사용 약관에 동의하는 것입니다.