UPDATE: BEZEICHNETE TRAININGS- UND TESTDATEN STEHEN! Bitte registrieren Sie sich für die Aufgabe unter https://easychair.org/conferences/?conf=affcon2020
Korpus und Anmerkungen für die CL-Aff Shared Task – Get it #OffMyChest – von der Nanyang Technological University Singapur
Ein Teil des AffCon Workshops @ AAAI 2019 zur Modellierung von Affekt-in-Reaktion
Es besteht ein wachsendes Interesse daran, zu verstehen, wie Menschen Gespräche initiieren und führen. Das affektive Verständnis von Gesprächen konzentriert sich auf das Problem, wie Sprecher Emotionen nutzen, um auf eine Situation und aufeinander zu reagieren. Wir stellen den OffMyChest-Konversationsdatensatz vor und laden zur Einreichung der gemeinsamen Aufgabe Computational Linguistics Affect Understanding (CL-Aff) zur Modellierung interaktiver affektiver Reaktionen ein.
AKTUALISIERTE SYSTEMLÄUFE EINREICHUNGSFRIST: 18. Dezember 2019
Unser Datensatz ist unter der CC BY 4.0-Lizenz verfügbar (https://creativecommons.org/licenses/by/4.0/)
GEGEBEN : Sätze, die aus lockeren und konfessionellen Gesprächen zwischen Redakteuren in der /r/CasualConversations- und der /r/OffMyChest-Community entnommen wurden und aufgrund ihrer Offenlegung und unterstützenden Eigenschaften gekennzeichnet sind.
AUFGABE 1 : Halbüberwachte Lernaufgabe: Vorhersagen von Beschriftungen für Offenlegung und Unterstützung für Sätze basierend auf kleinen beschrifteten und großen unbeschrifteten Trainingsdaten.
AUFGABE 2 : Unbeaufsichtigte Aufgabe: Schlagen Sie neue Charakterisierungen und Erkenntnisse vor, um die Gesprächsdynamik zu modellieren.
Unbeschrifteter Trainingssatz :
UNBEZEICHNETE BEITRÄGE: Die Top-Beiträge im Jahr 2018 in /r/CasualConversations und /r/OffMyChest, in denen einer der Schlüsselbegriffe erwähnt wird. Beiträge, die Kommentaren in den Trainings- und Testsätzen übergeordnet sind, werden separat gekennzeichnet.
UNBEZEICHNETE KOMMENTARE: Über 420.000 Sätze extrahiert aus 130.000 Kommentaren, die auf „POSTS“ gepostet wurden.
Beschrifteter Trainingssatz : 12.860 beschriftete Sätze, extrahiert aus den Top-Kommentaren, die auf „POSTS“ gepostet wurden.
Testsatz: 5.000 unbeschriftete Sätze, extrahiert aus den Top-Kommentaren, die auf „POSTS“ gepostet wurden.
Sehen Sie sich die Anmerkungsanweisungen unter /docs/ an.
Offenlegung wird weiter in informative und emotionale Offenlegung kategorisiert.
Unterstützung wird weiter in allgemeine, informative und emotionale Unterstützung kategorisiert.
Dies ist das offene Repository für Affect Understanding in Text and Annotations, das durch die Zusammenarbeit zwischen der Nanyang Technological University, der University of Pennsylvania und Adobe Research India der Öffentlichkeit zugänglich gemacht wurde. Es umfasst Kommentare (einige mit Labels) und die übergeordneten Beiträge (alle ohne Labels) aus den Communities /r/CasualConversations und /r/OffMyChest
./README.md
Diese Datei.
./FAQ2020
Hinzu kommen häufig gestellte Fragen, einschließlich Aktualisierungen des Korpus.
./docs/labeldescriptions.txt
Definitionen für jedes der Labels
./scripts/*
Python-Skript zum Sammeln von Daten
wife, girlfriend, gf, husband, boyfriend, bf
Die Suchschlüsselwörter, die zum Sammeln von Daten von der API verwendet werden
./docs/corpusconstruction.txt
Hinzugefügt wird eine Readme-Datei mit detaillierten Informationen zu den Regeln und Schritten, die zum Erstellen des Dokumentenkorpus befolgt werden.
./docs/annotation_*.txt
Für die Anmerkung wurden Regeln befolgt.
./data/unlabeled data
Verzeichnis mit unbeschrifteten Daten zum Training und zu den Testsätzen.
./data/training data
Verzeichnis, das den Trainingssatz enthält.
./data/test data
Verzeichnis, das den Testsatz enthält.
Die Systemergebnisse des Testsatzes sollten den Aufgabenorganisatoren zur Zusammenstellung der Endergebnisse zur Präsentation auf dem Workshop vorgelegt werden.
Wenn Sie Fragen zum Workshop-Umfang haben oder weitere Informationen benötigen, schreiben Sie uns gerne eine E-Mail an:
Niyati, nchhaya [AT] adobe.com
Kokil, jaidka [AÜ] sas.upenn.edu
Jiahui, jhlu [AÜ] ntu.edu.sg
Bitte „SEHEN“ Sie sich dieses Repository an! Möglicherweise veröffentlichen wir in den folgenden Wochen weitere Updates. Nach der gemeinsamen Aufgabe planen wir außerdem, diese Daten mit weiteren Anmerkungen, Metafunktionen und trainierten Klassifikatoren weiter anzureichern, um nachgelagerte Anwendungen zu unterstützen.
Wenn Sie die Daten nutzen und veröffentlichen, teilen Sie uns dies bitte mit und zitieren Sie unser CL-Aff-Übersichtspapier:
@inproceedings{jaidka2020claff,
Adresse = {New York, USA},
Autor = { Jaidka, Kokil und Singh, Iknoor und Lu, Jiahui und Chhaya, Niyati und Ungar, Lyle},
booktitle = {Proceedings of the AAAI-20 Workshop on Affective Content Analysis},
Herausgeber = {AAAI},
title = {{Ein Bericht der CL-Aff OffMyChest Shared Task: Modeling Supportiveness and Disclosure}},
Jahr = {2020}
}
Wir danken der Pushshift-API und Jason Baumgartner für den Code, der diese Aufgabe ermöglicht hat. Danke schön!
Kokil Jaidka, Nanyang Technological University
Niyati Chhaya, Big Data Experience Lab, Adobe Research
Jiahui Lu, Technische Universität Nanyang
Iknoor Singh, Panjab-Universität
Lyle Ungar, University of Pennsylvania
Schauen Sie sich die Workshop- und Shared-Task-Website an: https://sites.google.com/view/affcon2020/home