업데이트: 라벨이 붙은 훈련 및 테스트 데이터가 올라왔습니다! https://easychair.org/conferences/?conf=affcon2020에서 해당 작업에 등록하세요.
CL-Aff 공유 작업에 대한 코퍼스 및 주석 - 싱가포르 난양 기술 대학교에서 #OffMyChest 받기
Affect-in-Response 모델링을 위한 AffCon 워크숍 @ AAAI 2019의 일부
인간이 어떻게 대화를 시작하고 유지하는지 이해하려는 관심이 높아지고 있습니다. 대화에 대한 정서적 이해는 화자가 상황과 서로에게 반응하기 위해 감정을 어떻게 사용하는지에 대한 문제에 중점을 둡니다. OffMyChest 대화 데이터 세트를 소개하고 대화형 정서적 반응 모델링에 대한 CL-Aff(Computational Linguistics Affect Understanding) 공유 작업에 대한 제출을 초대합니다.
업데이트된 시스템 실행 제출 마감일: 2019년 12월 18일
우리의 데이터 세트는 CC BY 4.0 라이선스(https://creativecommons.org/licenses/by/4.0/)에 따라 제공됩니다.
제공 : /r/CasualConversations 및 /r/OffMyChest 커뮤니티에서 Redittor 간의 일상적이고 고백적인 대화에서 샘플링된 문장으로, 공개 및 지원 특성으로 라벨이 지정되어 있습니다.
작업 1 : 준지도 학습 작업: 작은 레이블이 있는 훈련 데이터와 큰 레이블이 없는 훈련 데이터를 기반으로 문장에 대한 공개 및 지지 레이블을 예측합니다.
작업 2 : 비지도 작업: 대화 역학을 모델링하기 위한 새로운 특성화 및 통찰력을 제안합니다.
라벨이 지정되지 않은 학습 세트 :
라벨이 지정되지 않은 게시물: 키워드 용어를 언급하는 /r/CasualConversations 및 /r/OffMyChest의 2018년 인기 게시물입니다. 학습 및 테스트 세트에서 댓글의 상위 게시물은 별도로 식별됩니다.
라벨이 지정되지 않은 댓글: "POSTS"에 게시된 130,000개의 댓글에서 420,000개가 넘는 문장이 추출되었습니다.
레이블이 지정된 훈련 세트 : "POSTS"에 게시된 상위 댓글에서 추출된 12,860개의 레이블이 지정된 문장입니다.
테스트 세트: "POSTS"에 게시된 상위 댓글에서 추출된 레이블 없는 문장 5,000개.
/docs/에서 주석 지침을 확인하세요.
공개는 정보 공개와 감정 공개로 더 분류됩니다.
지지성은 다시 일반 지지, 정보 지지, 정서적 지지로 분류됩니다.
난양기술대학교, 펜실베니아대학교, Adobe Research India의 협력을 통해 대중에게 제공되는 텍스트 및 주석의 Affect Understanding in Text 및 Annotations에 대한 오픈 저장소입니다. 이는 /r/CasualConversations 및 /r/OffMyChest 커뮤니티의 댓글(일부 라벨이 지정됨)과 상위 게시물(모두 라벨이 지정되지 않음)로 구성됩니다.
./README.md
이 파일.
./FAQ2020
추가하려면 코퍼스 업데이트를 포함하여 자주 묻는 질문이 있을 것입니다.
./docs/labeldescriptions.txt
각 라벨에 대한 정의
./scripts/*
데이터 수집에 사용되는 Python 스크립트
wife, girlfriend, gf, husband, boyfriend, bf
API에서 데이터를 수집하는 데 사용되는 검색 키워드
./docs/corpusconstruction.txt
문서 코퍼스를 생성하기 위해 따라야 하는 규칙과 단계를 자세히 설명하는 추가 정보입니다.
./docs/annotation_*.txt
주석에 적용되는 규칙입니다.
./data/unlabeled data
학습 및 테스트 세트와 관련된 라벨이 지정되지 않은 데이터가 포함된 디렉터리입니다.
./data/training data
훈련 세트가 포함된 디렉터리입니다.
./data/test data
테스트 세트가 포함된 디렉터리입니다.
테스트 세트의 시스템 출력은 최종 결과의 조합이 워크숍에서 발표될 수 있도록 작업 주최자에게 제출되어야 합니다.
워크숍 범위에 관해 질문이 있거나 추가 정보가 필요한 경우 언제든지 이메일을 보내주십시오.
Niyati, chhaya [AT] adobe.com
Kokil, jaidka [AT] sas.upenn.edu
Jiahui, jhlu [AT] ntu.edu.sg
이 저장소를 "감상"해 보세요! 다음 주에 더 많은 업데이트를 추진할 수도 있습니다. 공유 작업 후에는 다운스트림 애플리케이션을 지원하기 위해 더 많은 주석, 메타 기능 및 훈련된 분류자를 사용하여 이 데이터를 더욱 풍부하게 할 계획입니다.
데이터를 사용하고 게시하는 경우 CL-Aff 개요 문서를 알려주고 인용해 주세요.
@inproceedings{jaidka2020claff,
주소 = {미국 뉴욕},
저자 = { Jaidka, Kokil 및 Singh, Iknoor 및 Lu, Jiahui 및 Chhaya, Niyati 및 Ungar, Lyle},
책제목 = {정서적 콘텐츠 분석에 관한 AAAI-20 워크숍 진행},
게시자 = {AAAI},
title = {{CL-Aff OffMyChest 공유 작업 보고서: 지원 및 공개 모델링}},
연도 = {2020}
}
이 작업을 가능하게 한 코드를 제공한 Pushshift API와 Jason Baumgartner에게 감사드립니다. 감사합니다!
난양기술대학교 코킬 자이드카(Kokil Jaidka)
Niyati Chhaya, Adobe Research 빅 데이터 경험 연구소
루지아후이(Nanyang Technological University), 난양기술대학교
Iknoor Singh, 판자브 대학교
라일 언가(Lyle Ungar), 펜실베이니아 대학교
워크샵 및 공유 작업 웹사이트를 확인하세요: https://sites.google.com/view/affcon2020/home