PEMBARUAN: DATA PELATIHAN DAN UJI BERLABEL SUDAH HABIS! Silakan mendaftar untuk tugas ini di https://easychair.org/conferences/?conf=affcon2020
Korpus dan anotasi untuk Tugas Bersama CL-Aff - Dapatkan #OffMyChest - dari Nanyang Technological University Singapore
Bagian dari Lokakarya AffCon @ AAAI 2019 untuk Modeling Affect-in-Response
Ada peningkatan minat untuk memahami bagaimana manusia memulai dan melakukan percakapan. Pemahaman afektif percakapan berfokus pada masalah bagaimana penutur menggunakan emosi untuk bereaksi terhadap suatu situasi dan terhadap satu sama lain. Kami memperkenalkan kumpulan data percakapan OffMyChest, dan mengundang kiriman untuk Tugas Bersama Computational Linguistics Affect Understanding (CL-Aff) tentang pemodelan respons afektif interaktif.
BATAS PENGIRIMAN SISTEM TERKINI: 18 Desember 2019
Kumpulan data kami tersedia di bawah lisensi CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/)
DIBERIKAN : Contoh kalimat dari percakapan santai dan pengakuan di antara Redittor di /r/CasualConversations dan komunitas /r/OffMyChest, diberi label berdasarkan pengungkapan dan karakteristik pendukungnya.
TUGAS 1 : Tugas pembelajaran semi-supervisi: Memprediksi label untuk Pengungkapan dan Dukungan untuk kalimat berdasarkan data pelatihan berlabel kecil dan besar tidak berlabel.
TUGAS 2 : Tugas tanpa pengawasan: Mengusulkan karakterisasi dan wawasan baru untuk memodelkan dinamika percakapan.
Set pelatihan tanpa label :
POSTINGAN TIDAK BERLABEL: Postingan teratas tahun 2018 di /r/CasualConversations dan /r/OffMyChest yang menyebutkan salah satu istilah kata kunci. Postingan yang merupakan induk dari komentar dalam set pelatihan dan pengujian diidentifikasi secara terpisah.
KOMENTAR TANPA LABEL: Lebih dari 420 ribu kalimat diambil dari 130 ribu komentar yang diposting ke "POST"
Set pelatihan berlabel : 12.860 kalimat berlabel, diambil dari komentar teratas yang diposting ke "POSTS".
Set pengujian: 5.000 kalimat tanpa label, diambil dari komentar teratas yang diposting ke "POSTS".
Lihat petunjuk anotasi di bawah /docs/.
Pengungkapan selanjutnya dikategorikan menjadi pengungkapan informasional dan emosional.
Dukungan dibagi lagi menjadi dukungan umum, informasional, dan emosional.
Ini adalah gudang terbuka untuk Mempengaruhi Pemahaman dalam Teks dan Anotasi yang disumbangkan kepada publik melalui kolaborasi antara Nanyang Technological University, University of Pennsylvania, dan Adobe Research India. Ini terdiri dari komentar (beberapa berlabel) dan postingan induk (semua tidak berlabel) dari komunitas /r/CasualConversations dan /r/OffMyChest
./README.md
berkas ini.
./FAQ2020
Sebagai tambahan, akan ada pertanyaan yang sering diajukan termasuk pembaruan pada korpus.
./docs/labeldescriptions.txt
Definisi untuk masing-masing label
./scripts/*
Skrip Python digunakan untuk mengumpulkan data
wife, girlfriend, gf, husband, boyfriend, bf
Kata kunci pencarian yang digunakan untuk mengumpulkan data dari API
./docs/corpusconstruction.txt
Untuk ditambahkan, readme merinci aturan dan langkah-langkah yang diikuti untuk membuat korpus dokumen.
./docs/annotation_*.txt
Aturan diikuti untuk anotasi.
./data/unlabeled data
Direktori berisi data tak berlabel yang berkaitan dengan pelatihan dan set pengujian.
./data/training data
Direktori yang berisi set pelatihan.
./data/test data
Direktori yang berisi set tes.
Keluaran sistem dari set tes harus diserahkan kepada penyelenggara tugas, untuk penyusunan hasil akhir yang akan dipresentasikan pada lokakarya.
Jika Anda memiliki pertanyaan mengenai ruang lingkup lokakarya atau memerlukan informasi lebih lanjut, jangan ragu untuk mengirimkan email:
Niyati, nchhaya [AT] adobe.com
Kokil, jaidka [AT] sas.upenn.edu
Jiahui, jhlu [AT] ntu.edu.sg
Silakan "TONTON" repositori ini! Kami mungkin akan memberikan lebih banyak pembaruan pada minggu-minggu berikutnya. Setelah Tugas Bersama, kami juga berencana untuk lebih memperkaya data ini, dengan lebih banyak anotasi, fitur meta, dan pengklasifikasi terlatih untuk membantu aplikasi hilir.
Jika Anda menggunakan data dan mempublikasikannya, harap beri tahu kami dan mengutip makalah ikhtisar CL-Aff kami:
@dalam proses{jaidka2020claff,
alamat = {New York, AS},
penulis = { Jaidka, Kokil dan Singh, Iknoor dan Lu, Jiahui dan Chhaya, Niyati dan Ungar, Lyle},
booktitle = {Prosiding Lokakarya AAAI-20 Analisis Konten Afektif},
penerbit = {AAAI},
title = {{Laporan Tugas Bersama CL-Aff OffMyChest: Memberi Model Dukungan dan Pengungkapan}},
tahun = {2020}
}
Kami berterima kasih kepada Pushshift API dan Jason Baumgartner atas kode yang memungkinkan tugas ini. Terima kasih!
Kokil Jaidka, Universitas Teknologi Nanyang
Niyati Chhaya, Lab Pengalaman Big Data, Penelitian Adobe
Jiahui Lu, Universitas Teknologi Nanyang
Iknoor Singh, Universitas Punjab
Lyle Ungar, Universitas Pennsylvania
Kunjungi website Workshop dan Tugas Bersama: https://sites.google.com/view/affcon2020/home