ACTUALIZACIÓN: ¡LOS DATOS DE ENTRENAMIENTO Y PRUEBAS ETIQUETADOS ESTÁN ARRIBA! Regístrese para la tarea en https://easychair.org/conferences/?conf=affcon2020
Corpus y anotaciones para la tarea compartida CL-Aff: Get it #OffMyChest, de la Universidad Tecnológica de Nanyang en Singapur
Una parte del taller AffCon @ AAAI 2019 para modelar el efecto en respuesta
Existe un interés creciente en comprender cómo los humanos inician y mantienen conversaciones. La comprensión afectiva de las conversaciones se centra en el problema de cómo los hablantes utilizan las emociones para reaccionar ante una situación y entre sí. Presentamos el conjunto de datos de conversación OffMyChest e invitamos a enviar presentaciones para la tarea compartida de comprensión de los efectos de la lingüística computacional (CL-Aff) sobre el modelado de respuestas afectivas interactivas.
EL SISTEMA ACTUALIZADO EJECUTA LA FECHA LÍMITE DE ENVÍO: 18 de diciembre de 2019
Nuestro conjunto de datos está disponible bajo licencia CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/)
DADO : Oraciones tomadas de conversaciones casuales y confesionales entre redactores en /r/CasualConversations y la comunidad /r/OffMyChest, etiquetadas por su divulgación y características de apoyo.
TAREA 1 : Tarea de aprendizaje semisupervisada: predecir etiquetas de divulgación y apoyo para oraciones basadas en datos de entrenamiento pequeños etiquetados y grandes sin etiquetar.
TAREA 2 : Tarea no supervisada: Proponer nuevas caracterizaciones y conocimientos para modelar la dinámica de la conversación.
Conjunto de entrenamiento sin etiquetar :
PUBLICACIONES SIN ETIQUETA: Las publicaciones principales de 2018 en /r/CasualConversations y /r/OffMyChest que mencionan cualquiera de los términos clave. Las publicaciones que son padres de comentarios en los conjuntos de entrenamiento y prueba se identifican por separado.
COMENTARIOS SIN ETIQUETA: Más de 420.000 frases extraídas de 130.000 comentarios publicados en "POSTS"
Conjunto de entrenamiento etiquetado : 12,860 oraciones etiquetadas, extraídas de los comentarios principales publicados en "POSTS".
Conjunto de prueba: 5000 oraciones sin etiquetar, extraídas de los comentarios principales publicados en "POSTS".
Consulte las instrucciones de anotación en /docs/.
La divulgación se clasifica además en divulgación informativa y emocional.
El apoyo se clasifica además en apoyo general, informativo y emocional.
Este es el repositorio abierto de comprensión de los efectos en texto y anotaciones aportado al público a través de la colaboración entre la Universidad Tecnológica de Nanyang, la Universidad de Pensilvania y Adobe Research India. Comprende comentarios (algunos etiquetados) y publicaciones principales (todas sin etiquetar) de las comunidades /r/CasualConversations y /r/OffMyChest.
./README.md
Este archivo.
./FAQ2020
Para agregar, habrá preguntas frecuentes, incluidas actualizaciones del corpus.
./docs/labeldescriptions.txt
Definiciones para cada una de las etiquetas.
./scripts/*
Script Python utilizado para recopilar datos
wife, girlfriend, gf, husband, boyfriend, bf
Las palabras clave de búsqueda utilizadas para recopilar datos de la API.
./docs/corpusconstruction.txt
Se agregará un archivo Léame que detalle las reglas y los pasos seguidos para crear el corpus del documento.
./docs/annotation_*.txt
Se siguieron reglas para la anotación.
./data/unlabeled data
Directorio que contiene datos sin etiquetar relacionados con los conjuntos de entrenamiento y prueba.
./data/training data
Directorio que contiene el conjunto de entrenamiento.
./data/test data
Directorio que contiene el conjunto de prueba.
Los resultados del sistema del conjunto de pruebas deben enviarse a los organizadores de la tarea, para que los resultados finales se presenten en el taller.
Si tiene alguna pregunta sobre el alcance del taller o necesita más información, no dude en enviar un correo electrónico:
Niyati, nchhaya [AT] adobe.com
Kokil, jaidka [AT] sas.upenn.edu
Jiahui, jhlu [AT] ntu.edu.sg
¡Por favor, "MIRA" este repositorio! Es posible que publiquemos más actualizaciones en las próximas semanas. Después de la tarea compartida, también planeamos enriquecer aún más estos datos, con más anotaciones, metafunciones y clasificadores capacitados para ayudar con las aplicaciones posteriores.
Si utiliza los datos y los publica, háganoslo saber y cite nuestro documento general de CL-Aff:
@inproceedings{jaidka2020claff,
dirección = {Nueva York, EE. UU.},
autor = {Jaidka, Kokil y Singh, Iknoor y Lu, Jiahui y Chhaya, Niyati y Ungar, Lyle},
booktitle = {Actas del taller AAAI-20 sobre análisis de contenido afectivo},
editor = {AAAI},
title = {{Un informe de la tarea compartida CL-Aff OffMyChest: Modelado de apoyo y divulgación}},
año = {2020}
}
Agradecemos a la API Pushshift y a Jason Baumgartner por el código que hizo posible esta tarea. ¡Gracias!
Kokil Jaidka, Universidad Tecnológica de Nanyang
Niyati Chhaya, Laboratorio de experiencia de Big Data, Adobe Research
Jiahui Lu, Universidad Tecnológica de Nanyang
Iknoor Singh, Universidad de Panjab
Lyle Ungar, Universidad de Pensilvania
Consulte el sitio web del taller y la tarea compartida: https://sites.google.com/view/affcon2020/home