ОБНОВЛЕНИЕ: ДАННЫЕ О ТРЕНИРОВКЕ И ТЕСТИРОВАНИИ ПОСТАВЛЕНЫ! Пожалуйста, зарегистрируйтесь для выполнения задания на https://easychair.org/conferences/?conf=affcon2020.
Корпус и аннотации к общей задаче CL-Aff — Get it #OffMyChest — от Наньянского технологического университета, Сингапур.
Часть семинара AffCon @ AAAI 2019 по моделированию эффекта в ответ.
Растет интерес к пониманию того, как люди начинают и поддерживают разговоры. Аффективное понимание разговора фокусируется на проблеме того, как говорящие используют эмоции для реагирования на ситуацию и друг на друга. Мы представляем набор данных разговоров OffMyChest и приглашаем к участию в общей задаче «Компьютерная лингвистика влияет на понимание» (CL-Aff) по моделированию интерактивных аффективных реакций.
СРОК ПОДАЧИ ОБНОВЛЕННОЙ СИСТЕМЫ: 18 декабря 2019 г.
Наш набор данных доступен по лицензии CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/).
ПРИДАНО : Предложения, выбранные из случайных и исповедальных разговоров между редакторами в /r/CasualConversations и сообществе /r/OffMyChest, помечены за их раскрывающие и поддерживающие характеристики.
ЗАДАЧА 1 : Задача обучения с полуконтролем: спрогнозировать метки для раскрытия и поддержки для предложений на основе небольших размеченных и больших неразмеченных обучающих данных.
ЗАДАЧА 2 : Задание без присмотра: Предложите новые характеристики и идеи для моделирования динамики разговора.
Немаркированный тренировочный набор :
НЕОБОЗНАЧЕННЫЕ ПОСТЫ: самые популярные сообщения 2018 года в каталогах /r/CasualConversations и /r/OffMyChest, в которых упоминаются любые ключевые слова. Отдельно идентифицируются публикации, являющиеся родителями комментариев в обучающем и тестовом наборах.
НЕОБОЗНАЧЕННЫЕ КОММЕНТАРИИ: более 420 тысяч предложений, извлеченных из 130 тысяч комментариев, опубликованных в «POSTS».
Размеченный обучающий набор : 12 860 размеченных предложений, извлеченных из самых популярных комментариев, опубликованных в «POSTS».
Тестовый набор: 5000 неразмеченных предложений, извлеченных из самых популярных комментариев, опубликованных в «POSTS».
Ознакомьтесь с инструкциями по аннотациям в /docs/.
Раскрытие далее подразделяется на информационное и эмоциональное раскрытие.
Поддержка подразделяется на общую, информационную и эмоциональную поддержку.
Это открытый репозиторий «Понимание аффектов в тексте и аннотациях», предоставленный общественности в результате сотрудничества Наньянского технологического университета, Пенсильванского университета и Adobe Research India. Он включает комментарии (некоторые из них помечены) и родительские сообщения (все без пометок) из сообществ /r/CasualConversations и /r/OffMyChest.
./README.md
Этот файл.
./FAQ2020
Будут добавлены часто задаваемые вопросы, включая обновления корпуса.
./docs/labeldescriptions.txt
Определения для каждой этикетки
./scripts/*
Скрипт Python, используемый для сбора данных
wife, girlfriend, gf, husband, boyfriend, bf
Ключевые слова поиска, используемые для сбора данных из API
./docs/corpusconstruction.txt
Будет добавлен файл readme с подробным описанием правил и шагов, которые необходимо выполнить для создания корпуса документов.
./docs/annotation_*.txt
Правила, соблюдаемые для аннотации.
./data/unlabeled data
Каталог, содержащий непомеченные данные, относящиеся к обучающим и тестовым наборам.
./data/training data
Каталог, содержащий обучающий набор.
./data/test data
Каталог, содержащий набор тестов.
Результаты работы системы из тестового набора должны быть представлены организаторам задач для сопоставления окончательных результатов, которые будут представлены на семинаре.
Если у вас есть какие-либо вопросы относительно объема семинара или вам нужна дополнительная информация, пожалуйста, отправьте электронное письмо:
Нияти, нчхая [AT] adobe.com
Кокил, джайдка [AT] sas.upenn.edu
Цзяхуэй, jhlu [AT] ntu.edu.sg
Пожалуйста, «СМОТРЕТЬ» этот репозиторий! Возможно, в ближайшие недели мы выпустим больше обновлений. После общей задачи мы также планируем дополнительно обогатить эти данные, добавив больше аннотаций, метафункций и обученных классификаторов, которые помогут в последующих приложениях.
Если вы используете данные и публикуете их, сообщите нам об этом и процитируйте наш обзорный документ CL-Aff:
@inproceedings{jaidka2020claff,
адрес = {Нью-Йорк, США},
автор = { Джайдка, Кокил и Сингх, Икнур и Лу, Джяхуи и Чхая, Нияти и Унгар, Лайл},
booktitle = {Материалы семинара AAAI-20 по аффективному контент-анализу},
издатель = {AAAI},
title = {{Отчет об общей задаче CL-Aff OffMyChest: моделирование поддержки и раскрытия информации}},
год = {2020}
}
Мы благодарны Pushshift API и Джейсону Баумгартнеру за код, который сделал эту задачу возможной. Спасибо!
Кокил Джайдка, Наньянский технологический университет
Нияти Чхая, Лаборатория обработки больших данных, Adobe Research
Цзяхуэй Лу, Наньянский технологический университет
Икнур Сингх, Пенджабский университет
Лайл Ангар, Пенсильванский университет
Посетите веб-сайт «Мастерская и общие задачи»: https://sites.google.com/view/affcon2020/home.