ATUALIZAÇÃO: OS DADOS DE TREINAMENTO E TESTE ROTULADOS ESTÃO ACIMA! Por favor, registre-se para a tarefa em https://easychair.org/conferences/?conf=affcon2020
Corpus e anotações para a tarefa compartilhada CL-Aff - Get it #OffMyChest - da Nanyang Technological University Singapore
Uma parte do Workshop AffCon @ AAAI 2019 para Modelagem de Afeto em Resposta
Há um interesse crescente em compreender como os humanos iniciam e mantêm conversas. A compreensão afetiva das conversas concentra-se no problema de como os falantes usam as emoções para reagir a uma situação e uns aos outros. Apresentamos o conjunto de dados de conversação OffMyChest e convidamos envios para a tarefa compartilhada Computational Linguistics Affect Understanding (CL-Aff) sobre modelagem de respostas afetivas interativas.
PRAZO DE ENVIO DE EXECUÇÕES DO SISTEMA ATUALIZADO: 18 de dezembro de 2019
Nosso conjunto de dados está disponível sob licença CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/)
DADO : Frases retiradas de amostras de conversas casuais e confessionais entre Redittors na comunidade /r/CasualConversations e na comunidade /r/OffMyChest, rotuladas por sua divulgação e características de apoio.
TAREFA 1 : Tarefa de aprendizagem semissupervisionada: Prever rótulos para divulgação e suporte para sentenças com base em dados de treinamento pequenos rotulados e grandes não rotulados.
TAREFA 2 : Tarefa não supervisionada: Propor novas caracterizações e insights para modelar a dinâmica da conversação.
Conjunto de treinamento não rotulado :
POSTS NÃO ETIQUETADOS: Os principais posts em 2018 em /r/CasualConversations e /r/OffMyChest mencionando qualquer um dos termos de palavra-chave. As postagens que são pais de comentários nos conjuntos de treinamento e teste são identificadas separadamente.
COMENTÁRIOS NÃO ROTULADOS: Mais de 420 mil frases extraídas de 130 mil comentários postados em "POSTS"
Conjunto de treinamento rotulado : 12.860 frases rotuladas, extraídas dos principais comentários postados em "POSTS".
Conjunto de teste: 5.000 frases sem rótulos, extraídas dos principais comentários postados em "POSTS".
Confira as instruções de anotação em /docs/.
A divulgação é ainda categorizada em divulgação informativa e emocional.
O apoio é ainda categorizado em apoio geral, informativo e emocional.
Este é o repositório aberto para Affect Understanding in Text and Annotations, contribuído ao público por meio da colaboração entre a Universidade Tecnológica de Nanyang, a Universidade da Pensilvânia e a Adobe Research India. Inclui comentários (alguns rotulados) e postagens principais (todas sem rótulos) das comunidades /r/CasualConversations e /r/OffMyChest
./README.md
Este arquivo.
./FAQ2020
A serem adicionados, terão perguntas frequentes, incluindo atualizações do corpus.
./docs/labeldescriptions.txt
Definições para cada um dos rótulos
./scripts/*
Script Python usado para coletar dados
wife, girlfriend, gf, husband, boyfriend, bf
As palavras-chave de pesquisa usadas para coletar dados da API
./docs/corpusconstruction.txt
A ser adicionado, um leia-me detalhando as regras e etapas seguidas para criar o corpus do documento.
./docs/annotation_*.txt
Regras seguidas para a anotação.
./data/unlabeled data
Diretório contendo dados não rotulados pertencentes aos conjuntos de treinamento e teste.
./data/training data
Diretório que contém o conjunto de treinamento.
./data/test data
Diretório que contém o conjunto de testes.
As saídas do sistema do conjunto de testes devem ser submetidas aos organizadores da tarefa, para a compilação dos resultados finais a serem apresentados no workshop.
Se você tiver alguma dúvida sobre o escopo do workshop ou precisar de mais informações, não hesite em enviar um e-mail:
Niyati, nchhaya [AT] adobe.com
Kokil, jaidka [AT] sas.upenn.edu
Jiahui, jhlu [AT] ntu.edu.sg
Por favor, "ASSISTA" este repositório! Poderemos lançar mais atualizações nas próximas semanas. Após a tarefa compartilhada, também planejamos enriquecer ainda mais esses dados, com mais anotações, meta-recursos e classificadores treinados para auxiliar nas aplicações downstream.
Se você usar os dados e publicar, informe-nos e cite nosso documento de visão geral do CL-Aff:
@inproceedings{jaidka2020claff,
endereço = {Nova York, EUA},
autor = {Jaidka, Kokil e Singh, Iknoor e Lu, Jiahui e Chhaya, Niyati e Ungar, Lyle},
booktitle = {Anais do Workshop AAAI-20 sobre Análise de Conteúdo Afetivo},
editor = {AAAI},
title = {{Um relatório da tarefa compartilhada CL-Aff OffMyChest: modelagem de suporte e divulgação}},
ano = {2020}
}
Somos gratos à API Pushshift e a Jason Baumgartner pelo código que tornou esta tarefa possível. Obrigado!
Kokil Jaidka, Universidade Tecnológica de Nanyang
Niyati Chhaya, Laboratório de Experiência em Big Data, Adobe Research
Jiahui Lu, Universidade Tecnológica de Nanyang
Iknoor Singh, Universidade de Panjab
Lyle Ungar, Universidade da Pensilvânia
Confira o site do Workshop e Tarefa Compartilhada: https://sites.google.com/view/affcon2020/home