Загрузка ACL anthology corpus - Загрузка исходного кода ACL anthology corpus

ACL anthology corpus

Другой исходный код

1.0.0

Скачать

Корпус ACL OCL: развитие открытой науки в компьютерной лингвистике

Этот репозиторий предоставляет полный текст и метаданные для коллекции антологий ACL (80 тыс. статей/плакатов по состоянию на сентябрь 2022 г.), а также файлы .pdf и извлечения из них в формате grobid.

Чем это отличается от того, что предлагает антология ACL и что уже существует?

Мы предоставляем PDF-файлы, полный текст, ссылки и другие сведения, извлеченные с помощью grobid из PDF-файлов, тогда как ACL Anthology предоставляет только рефераты.
Существует аналогичный корпус под названием ACL Anthology Network, но сейчас он показывает свой возраст: за декабрь 2016 года насчитывается всего 23 тысячи статей.

ОБНОВЛЯТЬ

Данные теперь размещены на Huggingface! Пожалуйста, скачайте его оттуда. Это самая актуальная версия. https://huggingface.co/datasets/ACL-OCL/acl-anthology-corpus

Цель состоит в том, чтобы поддерживать этот корпус в актуальном состоянии и предоставлять всеобъемлющий репозиторий полной коллекции ACL.

Этот репозиторий предоставляет данные для 80,013 статей/постеров ACL —

Все PDF-файлы антологии ACL: размер 45G можно скачать здесь.
? Все файлы нагрудников в антологии ACL с тезисами: размер 172M можно скачать здесь.
?️ Необработанные результаты извлечения гробидов из всех PDF-файлов антологии ACL, которые включают полный текст и ссылки: размер 3,6G можно скачать здесь.
? Кадр данных с извлеченными метаданными (таблица с подробными сведениями ниже) и полный текст коллекции для анализа: размер 489M скачать здесь

Имя столбца	Описание
`acl_id`	уникальный идентификатор ACL
`abstract`	аннотация извлечена GROBID
`full_text`	полный текст извлечен GROBID
`corpus_paper_id`	Идентификатор семантического ученого
`pdf_hash`	sha1 хеш PDF-файла
`numcitedby`	количество цитирований из S2
`url`	ссылка на публикацию
`publisher`	-
`address`	Адрес конференции
`year`	-
`month`	-
`booktitle`	-
`author`	список авторов
`title`	название статьи
`pages`	-
`doi`	-
`number`	-
`volume`	-
`journal`	-
`editor`	-
`isbn`	-

 >> > import pandas as pd
>> > df = pd . read_parquet ( 'acl-publication-info.74k.parquet' )
>> > df
         acl_id                                           abstract                                          full_text  corpus_paper_id                                  pdf_hash  ...  number volume journal editor  isbn
0      O02 - 2002  There is a need to measure word similarity whe ...  There is a need to measure word similarity whe ...         18022704  0b0 9178 ac8d17a92f16140365363d8df88c757d0  ...    None   None    None   None  None
1      L02 - 1310                                                                                                                8220988  8 d5e31610bc82c2abc86bc20ceba684c97e66024  ...    None   None    None   None  None
2      R13 - 1042  Thread disentanglement is the task of separati ...  Thread disentanglement is the task of separati ...         16703040  3 eb736b17a5acb583b9a9bd99837427753632cdb  ...    None   None    None   None  None
3      W05 - 0819  In this paper , we describe a word alignment al ...  In this paper , we describe a word alignment al ...          1215281  b20450f67116e59d1348fc472cfc09f96e348f55  ...    None   None    None   None  None
4      L02 - 1309                                                                                                               18078432  011e943 b64a78dadc3440674419821ee080f0de3  ...    None   None    None   None  None
...         ...                                                ...                                                ...              ...                                       ...  ...     ...    ...     ...    ...   ...
73280  P99 - 1002  This paper describes recent progress and the a ...  This paper describes recent progress and the a ...           715160  ab17a01f142124744c6ae425f8a23011366ec3ee  ...    None   None    None   None  None
73281  P00 - 1009  We present an LFG - DOP parser which uses fragme ...  We present an LFG - DOP parser which uses fragme ...          1356246  ad005b3fd0c867667118482227e31d9378229751  ...    None   None    None   None  None
73282  P99 - 1056  The processes through which readers evoke ment ...  The processes through which readers evoke ment ...          7277828  924 cf7a4836ebfc20ee094c30e61b949be049fb6  ...    None   None    None   None  None
73283  P99 - 1051  This paper examines the extent to which verb d ...  This paper examines the extent to which verb d ...          1829043  6 b1f6f28ee36de69e8afac39461ee1158cd4d49a  ...    None   None    None   None  None
73284  P00 - 1013  Spoken dialogue managers have benefited from u ...  Spoken dialogue managers have benefited from u ...         10903652  483 c818c09e39d9da47103fbf2da8aaa7acacf01  ...    None   None    None   None  None

[ 73285 rows x 21 columns ]

Предоставленный идентификатор ACL также соответствует API S2 —

https://api.semanticscholar.org/graph/v1/paper/ACL:P83-1025

API можно использовать для получения дополнительной информации по каждой статье в корпусе.

Генерация текста на Huggingface

Мы доработали модель distilgpt2 из HuggingFace, используя полный текст из этого корпуса. Модель обучена для задачи генерации.

Демонстрация создания текста: https://huggingface.co/shaurya0512/distilgpt2-finetune-acl22

Пример:

 >> > from transformers import AutoTokenizer , AutoModelForCausalLM
>> > tokenizer = AutoTokenizer . from_pretrained ( "shaurya0512/distilgpt2-finetune-acl22" )
>> > model = AutoModelForCausalLM . from_pretrained ( "shaurya0512/distilgpt2-finetune-acl22" )
>> >
>> > input_context = "We introduce a new language representation"
>> > input_ids = tokenizer . encode ( input_context , return_tensors = "pt" )  # encode input context
>> > outputs = model . generate (
...     input_ids = input_ids , max_length = 128 , temperature = 0.7 , repetition_penalty = 1.2
... )  # generate sequences
>> > print ( f"Generated: { tokenizer . decode ( outputs [ 0 ], skip_special_tokens = True ) } " )

 Generated: We introduce a new language representation for the task of sentiment classification. We propose an approach to learn representations from   
unlabeled data, which is based on supervised learning and can be applied in many applications such as machine translation (MT) or information retrieval   
systems where labeled text has been used by humans with limited training time but no supervision available at all. Our method achieves state-oftheart   
results using only one dataset per domain compared to other approaches that use multiple datasets simultaneously, including BERTScore(Devlin et al.,   
2019; Liu & Lapata, 2020b ) ; RoBERTa+LSTM + L2SRC -

TODO

~~Свяжите корпус acl с семантическим ученым (S2), такими источниками, как S2ORC.~~
Извлекайте рисунки и подписи из корпуса ACL с помощью pdffigures - Scientific-figure-captioning
Составьте график выпусков, чтобы корпус обновлялся.
График цитирования ACL
~~Улучшите метаданные с помощью сопоставления файлов bib - включите авторов~~
~~Добавление количества цитирований для статей~~
Используйте ForeCite для извлечения эффективных ключевых слов из корпуса
Связать наборы данных с помощью paperswithcode? - не знаю, насколько это полезно
Иметь некоторую статистику по данным – лингвистическое разнообразие; георазнообразие; если возможно, проводник
Классификация с нулевым выстрелом Мы надеемся, что этот корпус может быть полезен для анализа, актуального для сообщества ACL.

Пожалуйста, укажите/поставьте звездочку? эта страница, если вы используете этот корпус

Ссылаясь на корпус антологии ACL

Если вы используете этот корпус в своих исследованиях, используйте следующую запись BibTeX:

    @Misc{acl_anthology_corpus,
        author =       {Shaurya Rohatgi},
        title =        {ACL Anthology Corpus with Full Text},
        howpublished = {Github},
        year =         {2022},
        url =          {https://github.com/shauryr/ACL-anthology-corpus}
    }