更新:標記的訓練和測試資料已發布!請在 https://easychair.org/conferences/?conf=affcon2020 註冊任務
CL-Aff 分享任務的語料庫和註釋 - Get it #OffMyChest - 來自新加坡南洋理工大學
AffCon 研討會 @ AAAI 2019 的影響響應建模的一部分
人們越來越有興趣了解人類如何發起和進行對話。對話的情緒理解重點在於說話者如何利用情緒對情境和彼此做出反應的問題。我們介紹了 OffMyChest 對話資料集,並邀請提交有關建模互動情緒反應的計算語言學情感理解 (CL-Aff) 共享任務。
更新後的系統運作提交截止日期:2019 年 12 月 18 日
我們的資料集可在 CC BY 4.0 授權下使用 (https://creativecommons.org/licenses/by/4.0/)
給出:從 /r/CasualConversations 和 /r/OffMyChest 社區上 Redittor 之間的隨意和懺悔對話中抽取的句子,根據其披露和支持特徵進行標記。
任務 1 :半監督學習任務:根據小型標記和大型未標記訓練資料預測句子的揭露和支持性標籤。
任務 2 :無監督任務:提出新的特徵和見解來建模對話動態。
未標記的訓練集:
無標籤貼文: 2018 年 /r/CasualConversations 和 /r/OffMyChest 中提及任何關鍵字術語的熱門貼文。訓練集和測試集中評論的父帖子是單獨標識的。
未標記的評論:從發佈到“POSTS”的 13 萬條評論中提取了超過 42 萬個句子
標籤的訓練集:12,860 個標籤的句子,從發佈到「POSTS」的熱門評論中提取。
測試集: 5,000 個未標記的句子,從發佈到「POSTS」的熱門評論中提取。
查看/docs/下的註釋說明。
披露進一步分為資訊揭露和情感披露。
支持進一步分為一般支持、資訊支持和情感支持。
這是透過南洋理工大學、賓州大學和 Adobe 印度研究院合作向公眾貢獻的文本和註釋中的影響理解的開放儲存庫。它包含來自 /r/CasualConversations 和 /r/OffMyChest 社區的評論(一些已標記)和父帖子(全部未標記)
./README.md
這個文件。
./FAQ2020
將會新增常見問題,包括語料庫的更新。
./docs/labeldescriptions.txt
每個標籤的定義
./scripts/*
用於收集資料的Python腳本
wife, girlfriend, gf, husband, boyfriend, bf
用於從 API 收集資料的搜尋關鍵字
./docs/corpusconstruction.txt
新增一個自述文件,詳細說明建立文件語料庫的規則和步驟。
./docs/annotation_*.txt
註釋遵循規則。
./data/unlabeled data
包含與訓練和測試集相關的未標記資料的目錄。
./data/training data
包含訓練集的目錄。
./data/test data
包含測試集的目錄。
測試集的系統輸出應提交給任務組織者,以便在研討會上展示最終結果的整理。
如果您對研討會範圍有任何疑問或需要更多資訊,請隨時發送電子郵件:
Niyati,nchhaya [AT] adobe.com
Kokil, jaidka [AT] sas.upenn.edu
Jiahui, jhlu [AT] ntu.edu.sg
請“觀看”此存儲庫!我們可能會在接下來的幾週內推出更多更新。在共享任務之後,我們還計劃透過更多註釋、元特徵和訓練有素的分類器來進一步豐富這些數據,以幫助下游應用程式。
如果您使用這些數據並發布,請告知我們並引用我們的 CL-Aff 概述論文:
@inproceedings{jaidka2020claff,
地址 = {美國紐約},
作者 = { Jaidka、Kokil 和 Singh、Iknoor 和 Lu、Jiahui 和 Chhaya、Niyati 和 Ungar、Lyle},
booktitle = {AAAI-20 情緒內容分析研討會論文集},
出版商 = {AAAI},
title = {{CL-Aff OffMyChest 共享任務的報告:建模支援與揭露}},
年 = {2020}
}
我們感謝 Pushshift API 和 Jason Baumgartner 提供的程式碼使這項任務成為可能。謝謝你!
Kokil Jaidka,南洋理工大學
Niyati Chhaya,Adobe 研究大數據體驗實驗室
路家輝,南洋理工大學
伊克努爾辛格,旁遮普大學
萊爾‧昂加爾,賓州大學
查看研討會和分享任務網站:https://sites.google.com/view/affcon2020/home