更新:标记的训练和测试数据已发布!请在 https://easychair.org/conferences/?conf=affcon2020 注册任务
CL-Aff 共享任务的语料库和注释 - Get it #OffMyChest - 来自新加坡南洋理工大学
AffCon 研讨会 @ AAAI 2019 的影响响应建模的一部分
人们越来越有兴趣了解人类如何发起和进行对话。对对话的情感理解重点关注说话者如何利用情感对情境和彼此做出反应的问题。我们介绍了 OffMyChest 对话数据集,并邀请提交有关建模交互式情感反应的计算语言学情感理解 (CL-Aff) 共享任务。
更新后的系统运行提交截止日期:2019 年 12 月 18 日
我们的数据集可在 CC BY 4.0 许可下使用 (https://creativecommons.org/licenses/by/4.0/)
给出:从 /r/CasualConversations 和 /r/OffMyChest 社区上 Redittor 之间的随意和忏悔对话中抽取的句子,根据其披露和支持特征进行标记。
任务 1 :半监督学习任务:根据小型标记和大型未标记训练数据预测句子的披露和支持性标签。
任务 2 :无监督任务:提出新的特征和见解来建模对话动态。
未标记的训练集:
无标签帖子: 2018 年 /r/CasualConversations 和 /r/OffMyChest 中提及任何关键词术语的热门帖子。训练集和测试集中评论的父帖子是单独标识的。
未标记的评论:从发布到“POSTS”的 13 万条评论中提取了超过 42 万个句子
带标签的训练集:12,860 个带标签的句子,从发布到“POSTS”的热门评论中提取。
测试集: 5,000 个未标记的句子,从发布到“POSTS”的热门评论中提取。
查看/docs/下的注释说明。
披露进一步分为信息披露和情感披露。
支持进一步分为一般支持、信息支持和情感支持。
这是通过南洋理工大学、宾夕法尼亚大学和 Adobe 印度研究院合作向公众贡献的文本和注释中的影响理解的开放存储库。它包含来自 /r/CasualConversations 和 /r/OffMyChest 社区的评论(一些已标记)和父帖子(全部未标记)
./README.md
这个文件。
./FAQ2020
将添加常见问题,包括语料库的更新。
./docs/labeldescriptions.txt
每个标签的定义
./scripts/*
用于收集数据的Python脚本
wife, girlfriend, gf, husband, boyfriend, bf
用于从 API 收集数据的搜索关键字
./docs/corpusconstruction.txt
添加一个自述文件,详细说明创建文档语料库的规则和步骤。
./docs/annotation_*.txt
注释遵循规则。
./data/unlabeled data
包含与训练和测试集有关的未标记数据的目录。
./data/training data
包含训练集的目录。
./data/test data
包含测试集的目录。
测试集的系统输出应提交给任务组织者,以便在研讨会上展示最终结果的整理。
如果您对研讨会范围有任何疑问或需要更多信息,请随时发送电子邮件:
Niyati,nchhaya [AT] adobe.com
Kokil, jaidka [AT] sas.upenn.edu
Jiahui, jhlu [AT] ntu.edu.sg
请“观看”此存储库!我们可能会在接下来的几周内推出更多更新。在共享任务之后,我们还计划通过更多注释、元特征和训练有素的分类器来进一步丰富这些数据,以帮助下游应用程序。
如果您使用这些数据并发布,请告知我们并引用我们的 CL-Aff 概述论文:
@inproceedings{jaidka2020claff,
地址 = {美国纽约},
作者 = { Jaidka、Kokil 和 Singh、Iknoor 和 Lu、Jiahui 和 Chhaya、Niyati 和 Ungar、Lyle},
booktitle = {AAAI-20 情感内容分析研讨会论文集},
出版商 = {AAAI},
title = {{CL-Aff OffMyChest 共享任务的报告:建模支持和披露}},
年 = {2020}
}
我们感谢 Pushshift API 和 Jason Baumgartner 提供的代码使这项任务成为可能。谢谢你!
Kokil Jaidka,南洋理工大学
Niyati Chhaya,Adobe 研究大数据体验实验室
路家辉,南洋理工大学
伊克努尔·辛格,旁遮普大学
莱尔·昂加尔,宾夕法尼亚大学
查看研讨会和共享任务网站:https://sites.google.com/view/affcon2020/home