aanrelease2013.tar.gz
— это беспорядок.
papers_text/
(обычный текст, извлеченные из PDF-файла) имеют проблемы:P00-1032
, W06-3709
).T75-2033
, до непригодного для использования, например, J79-1013
).C73-2029
).L08-1302
). Makefile
декларативно предоставляет некоторую документацию о проблемах и необходимых работах по их устранению.
Этот репозиторий не содержит никаких исходных данных, только программное описание того, как это исправить.
Для запуска вызовите make
в корневом каталоге.
Интерфейс сети антологии ACL Мичиганского университета CLAIR Group сообщает следующую статистику:
Мера | Ценить |
---|---|
Количество статей | 21 212 |
Количество авторов | 17 792 |
Количество площадок | 342 |
Количество цитирований статей | 110 975 |
Количество авторских коллабораций | 142 450 |
Диаметр сети цитирования | 22 |
Диаметр сети для совместной работы | 15 |
Некоторые из них неточны или описывают только один из источников данных. Различные источники набора данных содержат разные подмножества данных; например, цитирования сообщаются для некоторых статей, которые не имеют соответствующего файла papers_text/
(например, L08-1098
).
aan/release/2013/acl.txt
Мера | Ценить |
---|---|
цитирование → цитируемые отношения | 110 930 |
уникальные цитирующие статьи | 16 554 |
средн. цитируется по цитированию | 6.7011 |
уникальные цитируемые статьи | 12 840 |
средн. цитирование за цитируемое | 8.6394 |
уникальные статьи | 18 160 |
уникальные статьи, которые цитируются и цитируются | 11 234 |
Топ-10 самых цитируемых статей | Количество статей, цитирующих | авторы | заголовок |
---|---|---|---|
Дж93-2004 | 928 | Митчелл и др. | Создание большого аннотированного корпуса английского языка: компьютерная лингвистика Penn Treebank |
P02-1040 | 891 | Папинени и др. | Bleu: метод автоматической оценки машинного перевода |
Дж93-2003 | 729 | Браун и др. | Математика статистического машинного перевода: оценка параметров |
P03-1021 | 667 | Ох и Йозеф | Обучение минимальной частоте ошибок в статистическом машинном переводе |
J03-1002 | 656 | Ох и Йозеф | Систематическое сравнение различных моделей статистического выравнивания |
P07-2045 | 591 | Коэн и др. | Моисей: набор инструментов с открытым исходным кодом для статистического машинного перевода |
N03-1017 | 556 | Коэн и др. | Статистический фразовый перевод |
P03-1054 | 394 | Кляйн и Мэннинг | Точный нелексикализованный синтаксический анализ |
J96-1002 | 376 | Бергер и др. | Подход максимальной энтропии к обработке естественного языка |
А00-2018 | 371 | Чарняк | Парсер, основанный на максимальной энтропии |
Топ-10 самых цитируемых статей | Количество процитированных статей |
---|---|
П10-1142 | 88 |
J10-3003 | 80 |
W13-4917 | 71 |
W13-2201 | 65 |
J12-1006 | 62 |
J98-1001 | 59 |
Дж13-2003 | 59 |
J07-4004 | 57 |
Дж11-2002 | 52 |
Д11-1108 | 52 |
aan/release/2013/acl-metadata.txt
Форматирование этого файла, честно говоря, сбивает с толку. Общая структура аналогична BibTeX, но ни один анализатор BibTeX не может с ней справиться. Хуже того, смесь кодировок безумна! Если бы ftfy
когда-либо искал отличный пример из реальной жизни, то это был бы он.
author
, W10-4238
, и 16 308 уникальных последовательностей author
( author
перечисляет всех авторов для этой статьи).aan/papers_text/???-????.txt
В этом каталоге есть много других файлов; некоторые статьи разделены на основной раздел и разделы ссылок; есть некоторые файлы, которые, похоже, предназначены для размещения в aan/release/2013/
; и многие файлы, соответствующие этому шаблону, пусты.
papers_text/
.papers_text/
. Несмотря на эти недостатки, сеть антологий ACL является отличным ресурсом; большое спасибо многочисленным участникам.
Драгомир Р. Радев, Прадип Мутхукришнан, Вахед Казвинян, Амджад Абу-Джбара. 2013. Сетевой корпус антологий ACL. Языковые ресурсы и оценка 47 (4), стр. 919–944. 10.1007/с10579-012-9211-2.
Авторские права принадлежат Кристоферу Брауну, 2016–2018 гг. Лицензия MIT.