更新: ラベル付きトレーニングとテストデータが更新されました! https://easychair.org/conferences/?conf=affcon2020 でタスクに登録してください。
CL-Aff 共有タスク - Get it #OffMyChest - シンガポール南洋理工大学のコーパスと注釈
AffCon ワークショップ @ AAAI 2019 の一部で、Affect-in-Response のモデリングを目的としています。
人間がどのように会話を始め、会話を続けるのかを理解することへの関心が高まっています。会話の感情的理解は、話者が状況やお互いに反応するために感情をどのように使用するかという問題に焦点を当てます。 OffMyChest 会話データセットを紹介し、対話型感情反応のモデル化に関する計算言語学影響理解 (CL-Aff) 共有タスクへの提出を募集します。
更新されたシステム実行の提出期限: 2019 年 12 月 18 日
私たちのデータセットは CC BY 4.0 ライセンスに基づいて利用可能です (https://creativecommons.org/licenses/by/4.0/)
GIVEN : /r/CasualConversations および /r/OffMyChest コミュニティ上の Redittor 間のカジュアルな告白的な会話からサンプリングされた文で、その開示と支援的な特徴にラベルが付けられています。
タスク 1 : 半教師あり学習タスク: ラベル付きの小さなトレーニング データとラベルなしの大きなトレーニング データに基づいて、文の開示と支持のラベルを予測します。
タスク 2 : 教師なしタスク: 会話のダイナミクスをモデル化するための新しい特徴付けと洞察を提案します。
ラベルのないトレーニング セット:
ラベルのない投稿: /r/CasualConversations および /r/OffMyChest でキーワード用語のいずれかに言及した 2018 年のトップ投稿。トレーニング セットとテスト セット内のコメントの親である投稿は個別に識別されます。
ラベルのないコメント: 「POSTS」に投稿された 130,000 のコメントから抽出された 420,000 を超える文
ラベル付きトレーニングセット:「POSTS」に投稿された上位のコメントから抽出された 12,860 個のラベル付き文。
テストセット: 「POSTS」に投稿された上位のコメントから抽出された、ラベルのない 5,000 の文。
/docs/ にある注釈の説明を確認してください。
開示はさらに、情報開示と感情的開示に分類されます。
支持性はさらに、一般的、情報的、感情的支持に分類されます。
これは、南洋理工大学、ペンシルバニア大学、および Adobe Research India の共同研究を通じて一般公開された、Affect Understanding in Text および Annotations のオープン リポジトリです。 /r/CasualConversations および /r/OffMyChest コミュニティからのコメント (一部はラベル付き) と親投稿 (すべてラベルなし) で構成されます。
./README.md
このファイル。
./FAQ2020
コーパスの更新を含むよくある質問が追加される予定です。
./docs/labeldescriptions.txt
各ラベルの定義
./scripts/*
データ収集に使用される Python スクリプト
wife, girlfriend, gf, husband, boyfriend, bf
APIからデータを収集するために使用される検索キーワード
./docs/corpusconstruction.txt
文書コーパスを作成するためのルールと手順を詳しく説明した Readme が追加されます。
./docs/annotation_*.txt
注釈に関してはルールに従いました。
./data/unlabeled data
トレーニング セットとテスト セットに関するラベルのないデータを含むディレクトリ。
./data/training data
トレーニング セットを含むディレクトリ。
./data/test data
テスト セットを含むディレクトリ。
ワークショップで提示される最終結果の照合のために、テスト セットからのシステム出力をタスク主催者に提出する必要があります。
ワークショップの範囲に関してご質問がある場合、またはさらに詳しい情報が必要な場合は、お気軽に電子メールを送信してください。
ニヤティ、ンチャヤ [AT] adobe.com
Kokil、jaidka [AT] sas.upenn.edu
Jiahui、jhlu [AT] ntu.edu.sg
このリポジトリを「見て」ください。今後数週間でさらなるアップデートを行う可能性があります。共有タスクの後は、下流のアプリケーションを支援するために、より多くの注釈、メタ特徴、トレーニングされた分類子を使用して、このデータをさらに充実させることも計画しています。
データを使用して出版する場合は、CL-Aff 概要ペーパーを引用してお知らせください。
@inproceedings{jaidka2020claff,
住所 = {米国ニューヨーク州}、
著者 = { Jaidka、Kokil と Singh、Iknoor と Lu、Jiahui と Chhaya、Niyati と Ungar、Lyle}、
booktitle = {感情内容分析に関する AAAI-20 ワークショップの議事録},
発行者 = {AAAI}、
title = {{CL-Aff OffMyChest 共有タスクのレポート: 支援と情報開示のモデリング}},
年 = {2020}
}
このタスクを可能にしたコードについては、Pushshift API と Jason Baumgartner に感謝します。ありがとう!
コキル・ジェイカ、南洋理工大学
Niyati Chhaya 氏、ビッグデータ エクスペリエンス ラボ、Adobe Research
Jiahui Lu、南洋理工大学
イクヌール・シン、パンジャブ大学
ライル・アンガー、ペンシルベニア大学
ワークショップと共有タスクの Web サイトをご覧ください: https://sites.google.com/view/affcon2020/home