Descarga ACL anthology corpus - Descarga del código fuente ACL anthology corpus

ACL anthology corpus

Otro código fuente

1.0.0

Descargar

El corpus ACL OCL: avance de la ciencia abierta en lingüística computacional

Este repositorio proporciona texto completo y metadatos a la colección de antología de ACL (80.000 artículos/pósteres a septiembre de 2022), que también incluye archivos .pdf y extracciones grobid de los archivos PDF.

¿En qué se diferencia esto de lo que ofrece la antología de ACL y de lo que ya existe?

Proporcionamos archivos PDF, texto completo, referencias y otros detalles extraídos por grobid de los archivos PDF, mientras que ACL Anthology solo proporciona resúmenes.
Existe un corpus similar llamado ACL Anthology Network, pero ahora muestra su antigüedad con solo 23.000 artículos de diciembre de 2016.

ACTUALIZAR

¡Los datos ahora están alojados en huggingface! Por favor descárguelo desde allí. Es el más actualizado. https://huggingface.co/datasets/ACL-OCL/acl-anthology-corpus

El objetivo es mantener este corpus actualizado y proporcionar un repositorio completo de la colección completa de ACL.

Este repositorio proporciona datos de 80,013 artículos/pósteres de ACL.

Todos los archivos PDF de la antología ACL: tamaño 45G, descárguelos aquí
? Todos los archivos bibliográficos de la antología de ACL con resúmenes: tamaño 172M, descárguelos aquí
?️ Resultados de extracción grobid sin procesar en todos los archivos PDF de la antología de ACL que incluyen texto completo y referencias: tamaño 3.6G, descárguelo aquí
? Marco de datos con metadatos extraídos (tabla a continuación con detalles) y texto completo de la colección para análisis: tamaño 489M, descargue aquí

Nombre de columna	Descripción
`acl_id`	identificación única de ACL
`abstract`	resumen extraído por GROBID
`full_text`	texto completo extraído por GROBID
`corpus_paper_id`	Identificación académica semántica
`pdf_hash`	hash sha1 del pdf
`numcitedby`	número de citas de S2
`url`	enlace de publicación
`publisher`	-
`address`	dirección de la conferencia
`year`	-
`month`	-
`booktitle`	-
`author`	lista de autores
`title`	título del artículo
`pages`	-
`doi`	-
`number`	-
`volume`	-
`journal`	-
`editor`	-
`isbn`	-

 >> > import pandas as pd
>> > df = pd . read_parquet ( 'acl-publication-info.74k.parquet' )
>> > df
         acl_id                                           abstract                                          full_text  corpus_paper_id                                  pdf_hash  ...  number volume journal editor  isbn
0      O02 - 2002  There is a need to measure word similarity whe ...  There is a need to measure word similarity whe ...         18022704  0b0 9178 ac8d17a92f16140365363d8df88c757d0  ...    None   None    None   None  None
1      L02 - 1310                                                                                                                8220988  8 d5e31610bc82c2abc86bc20ceba684c97e66024  ...    None   None    None   None  None
2      R13 - 1042  Thread disentanglement is the task of separati ...  Thread disentanglement is the task of separati ...         16703040  3 eb736b17a5acb583b9a9bd99837427753632cdb  ...    None   None    None   None  None
3      W05 - 0819  In this paper , we describe a word alignment al ...  In this paper , we describe a word alignment al ...          1215281  b20450f67116e59d1348fc472cfc09f96e348f55  ...    None   None    None   None  None
4      L02 - 1309                                                                                                               18078432  011e943 b64a78dadc3440674419821ee080f0de3  ...    None   None    None   None  None
...         ...                                                ...                                                ...              ...                                       ...  ...     ...    ...     ...    ...   ...
73280  P99 - 1002  This paper describes recent progress and the a ...  This paper describes recent progress and the a ...           715160  ab17a01f142124744c6ae425f8a23011366ec3ee  ...    None   None    None   None  None
73281  P00 - 1009  We present an LFG - DOP parser which uses fragme ...  We present an LFG - DOP parser which uses fragme ...          1356246  ad005b3fd0c867667118482227e31d9378229751  ...    None   None    None   None  None
73282  P99 - 1056  The processes through which readers evoke ment ...  The processes through which readers evoke ment ...          7277828  924 cf7a4836ebfc20ee094c30e61b949be049fb6  ...    None   None    None   None  None
73283  P99 - 1051  This paper examines the extent to which verb d ...  This paper examines the extent to which verb d ...          1829043  6 b1f6f28ee36de69e8afac39461ee1158cd4d49a  ...    None   None    None   None  None
73284  P00 - 1013  Spoken dialogue managers have benefited from u ...  Spoken dialogue managers have benefited from u ...         10903652  483 c818c09e39d9da47103fbf2da8aaa7acacf01  ...    None   None    None   None  None

[ 73285 rows x 21 columns ]

La identificación de ACL proporcionada también es consistente con la API de S2:

https://api.semanticscholar.org/graph/v1/paper/ACL:P83-1025

La API se puede utilizar para obtener más información para cada artículo del corpus.

Generación de texto en Huggingface

Ajustamos el modelo distilgpt2 de huggingface utilizando el texto completo de este corpus. El modelo está entrenado para tareas de generación.

Demostración de generación de texto: https://huggingface.co/shaurya0512/distilgpt2-finetune-acl22

Ejemplo:

 >> > from transformers import AutoTokenizer , AutoModelForCausalLM
>> > tokenizer = AutoTokenizer . from_pretrained ( "shaurya0512/distilgpt2-finetune-acl22" )
>> > model = AutoModelForCausalLM . from_pretrained ( "shaurya0512/distilgpt2-finetune-acl22" )
>> >
>> > input_context = "We introduce a new language representation"
>> > input_ids = tokenizer . encode ( input_context , return_tensors = "pt" )  # encode input context
>> > outputs = model . generate (
...     input_ids = input_ids , max_length = 128 , temperature = 0.7 , repetition_penalty = 1.2
... )  # generate sequences
>> > print ( f"Generated: { tokenizer . decode ( outputs [ 0 ], skip_special_tokens = True ) } " )

 Generated: We introduce a new language representation for the task of sentiment classification. We propose an approach to learn representations from   
unlabeled data, which is based on supervised learning and can be applied in many applications such as machine translation (MT) or information retrieval   
systems where labeled text has been used by humans with limited training time but no supervision available at all. Our method achieves state-oftheart   
results using only one dataset per domain compared to other approaches that use multiple datasets simultaneously, including BERTScore(Devlin et al.,   
2019; Liu & Lapata, 2020b ) ; RoBERTa+LSTM + L2SRC -

HACER

~~Vincular el corpus acl a semantic academic (S2), fuentes como S2ORC~~
Extraiga figuras y leyendas del corpus ACL usando pdffigures - Scientific-figure-captioning
Tener un cronograma de lanzamiento para mantener actualizado el corpus.
Gráfico de citas de ACL
~~Mejore los metadatos con el mapeo de archivos bib: incluya autores~~
~~Agregar recuentos de citas para artículos~~
Utilice ForeCite para extraer palabras clave impactantes del corpus
¿Vincular conjuntos de datos usando documentos con código? - no sé qué tan útil es esto
Tenga algunas estadísticas sobre los datos: diversidad lingüística; geodiversidad; si es posible explorador
clasificación de tiro cero Esperamos que este corpus pueda ser útil para análisis relevantes para la comunidad ACL.

¿Por favor citar/estrella? esta página si usas este corpus

Citando el corpus de antología de ACL

Si utiliza este corpus en su investigación, utilice la siguiente entrada BibTeX:

    @Misc{acl_anthology_corpus,
        author =       {Shaurya Rohatgi},
        title =        {ACL Anthology Corpus with Full Text},
        howpublished = {Github},
        year =         {2022},
        url =          {https://github.com/shauryr/ACL-anthology-corpus}
    }