MISE À JOUR : LES DONNÉES DE FORMATION ET DE TEST LAQUÉES SONT UP ! Veuillez vous inscrire à la tâche sur https://easychair.org/conferences/?conf=affcon2020
Corpus et annotations pour la tâche partagée CL-Aff - Obtenez-le #OffMyChest - de l'Université technologique de Nanyang à Singapour
Une partie de l'atelier AffCon @ AAAI 2019 pour la modélisation de l'affect en réponse
Il existe un intérêt croissant pour comprendre comment les humains initient et tiennent des conversations. La compréhension affective des conversations se concentre sur le problème de la manière dont les locuteurs utilisent leurs émotions pour réagir à une situation et les uns aux autres. Nous présentons l'ensemble de données de conversation OffMyChest et invitons des soumissions pour la tâche partagée Computational Linguistics Affect Understanding (CL-Aff) sur la modélisation des réponses affectives interactives.
DATE LIMITE DE SOUMISSION DES EXÉCUTIONS DU SYSTÈME MISE À JOUR : 18 décembre 2019
Notre ensemble de données est disponible sous licence CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/)
DONNÉ : Phrases extraites des conversations informelles et confessionnelles entre les rédacteurs sur /r/CasualConversations et la communauté /r/OffMyChest, étiquetées pour leur divulgation et leurs caractéristiques de soutien.
TÂCHE 1 : Tâche d'apprentissage semi-supervisé : Prédire les étiquettes de divulgation et de soutien pour les phrases en fonction de petites données d'entraînement étiquetées et de grandes données d'entraînement non étiquetées.
TÂCHE 2 : Tâche non supervisée : Proposer de nouvelles caractérisations et insights pour modéliser la dynamique de conversation.
Ensemble de formation sans étiquette :
POSTES SANS ÉTIQUETTÉ : les meilleurs messages en 2018 dans /r/CasualConversations et /r/OffMyChest mentionnant l'un des termes clés. Les publications qui sont les parents des commentaires dans les ensembles de formation et de test sont identifiées séparément.
COMMENTAIRES SANS ÉTIQUETTÉ : Plus de 420 000 phrases extraites de 130 000 commentaires publiés sur « POSTES »
Ensemble de formation étiquetée : 12 860 phrases étiquetées, extraites des principaux commentaires postés sur "POSTS".
Ensemble de tests : 5 000 phrases sans étiquette, extraites des principaux commentaires publiés sur « POSTS ».
Consultez les instructions d'annotation sous /docs/.
La divulgation est en outre classée en divulgation informationnelle et émotionnelle.
Le soutien est en outre classé en soutien général, informatif et émotionnel.
Il s'agit du référentiel ouvert d'Affect Understanding in Text and Annotations rendu public grâce à la collaboration entre l'Université technologique de Nanyang, l'Université de Pennsylvanie et Adobe Research India. Il comprend des commentaires (certains étiquetés) et les publications des parents (tous sans étiquette) des communautés /r/CasualConversations et /r/OffMyChest.
./README.md
Ce fichier.
./FAQ2020
À ajouter, des questions fréquemment posées, y compris des mises à jour du corpus.
./docs/labeldescriptions.txt
Définitions pour chacune des étiquettes
./scripts/*
Script Python utilisé pour collecter des données
wife, girlfriend, gf, husband, boyfriend, bf
Les mots-clés de recherche utilisés pour collecter les données de l'API
./docs/corpusconstruction.txt
A ajouter, un readme détaillant les règles et étapes suivies pour créer le corpus documentaire.
./docs/annotation_*.txt
Règles suivies pour l'annotation.
./data/unlabeled data
Répertoire contenant des données non étiquetées relatives à la formation et aux ensembles de tests.
./data/training data
Répertoire contenant l’ensemble de formation.
./data/test data
Répertoire contenant l'ensemble de test.
Les résultats du système issus de l'ensemble de tests doivent être soumis aux organisateurs de tâches, pour la collecte des résultats finaux qui seront présentés lors de l'atelier.
Si vous avez des questions concernant le contenu de l'atelier ou si vous avez besoin de plus amples informations, n'hésitez pas à envoyer un e-mail :
Niyati, nchhaya [AT] adobe.com
Kokil, jaidka [AT] sas.upenn.edu
Jiahui, jhlu [AT] ntu.edu.sg
Veuillez « REGARDER » ce référentiel ! Nous pourrions proposer davantage de mises à jour dans les semaines à venir. Après la tâche partagée, nous prévoyons également d'enrichir davantage ces données, avec davantage d'annotations, de méta-fonctionnalités et de classificateurs entraînés pour faciliter les applications en aval.
Si vous utilisez les données et les publiez, veuillez nous le faire savoir et citer notre document de synthèse CL-Aff :
@inproceedings{jaidka2020claff,
adresse = {New York, États-Unis},
auteur = { Jaidka, Kokil et Singh, Iknoor et Lu, Jiahui et Chhaya, Niyati et Ungar, Lyle},
booktitle = {Actes de l'atelier AAAI-20 sur l'analyse du contenu affectif},
éditeur = {AAAI},
title = {{Un rapport de la tâche partagée CL-Aff OffMyChest : modélisation du soutien et de la divulgation}},
année = {2020}
}
Nous remercions l'API Pushshift et Jason Baumgartner pour le code qui a rendu cette tâche possible. Merci!
Kokil Jaidka, Université technologique de Nanyang
Niyati Chhaya, Laboratoire d'expérience Big Data, Adobe Research
Jiahui Lu, Université technologique de Nanyang
Iknoor Singh, Université du Panjab
Lyle Ungar, Université de Pennsylvanie
Consultez le site Web de l'atelier et des tâches partagées : https://sites.google.com/view/affcon2020/home