이것은 LLMS의 사회적 이해 능력을 평가하기위한 다수의 사회적 상호 작용이있는 데이터 세트 인 Kokomind 의 리포입니다. repo에는 다음이 포함됩니다.
Kokomind 의 로고.
Kokomind에는 자유 텍스트 질문과 답변이있는 150 개의 복잡한 다수의 사회적 상호 작용 (소스 당 50 개)이 포함되어 있습니다. 다양성과 확장 성을 보장하고 데이터 오염을 피하기 위해 모든 사회적 상호 작용, 질문 및 답변은 GPT-4에 의해 생성되며 나중에 인간 전문가가 확인합니다. 이 세대는 세 가지 다른 출처를 기반으로합니다.
각 사회적 상호 작용에 대해, 우리는 사회적 이해의 다음 측면을 조사하기 위해 고안된 다양한 질문을합니다.
question_nonverbal_yes_v0.1.json
에는 총 770 개의 샘플이 포함되어 있습니다. 이 JSON 라인 파일은 사전 목록이며 각 사전에는 다음 필드가 포함되어 있습니다.
question_id
: int, 질문의 고유 한 ID.text
: STR, 사회적 상호 작용 맥락과 질문.answer
: STR, GPT-4 인간에 의해 추가로 확인 된 답변.source
: STR, 세 가지 데이터 소스 중 하나 인 gpt-4
, movie
, tomi
.category
: STR, 6 가지 질문 범주 중 하나 : ToM
, Social Norm
, Emotion Recognition
, Social Relation
, Counterfactual
, Social Advice
. question_nonverbal_no_v0.1.json
동일한 사회적 상호 작용과 질문을 포함하지만 괄호 안의 비언어적 신호 (예 : 긴장된 커피 등)가 문맥에서 제거되었습니다.
pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >
# Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8
# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl
# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl
# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl
# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl
우리의 평가는 Alpaca-Eval을 기반으로합니다.
# Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json
alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True
이 프로젝트는 비상업적 목적으로 만 설계된 초기 연구 쇼케이스입니다. OpenAI의 데이터 사용 약관과 ShareGpt의 개인 정보 보호 관행을 준수합니다. 잠재적 인 위반을 발견하면 알려주십시오. 소프트웨어 코드는 Apache License 2.0에 따라 사용할 수 있습니다.
우리는 UW의 Yejin Choi, CMU의 Louis-Philippe Morency, Meta의 Jason Weston 및 Stanford의 Diyi Yang에게 감사의 말을 전합니다. Kokomind의 이론적 재단은 Peking University, Tsinghua University 및 Beijing General 인공 지능 연구소 (BIGAI) 및 UCLA의 Beijing Institute와의 Song-Chun Zhu와의 Liang의 박사 연구를 기반으로합니다.
유용하다고 생각되면 우리의 일을 인용하십시오.
@misc { Shi_KokoMind_Can_Large_2023 ,
author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
month = jul,
year = { 2023 } ,
url = { https://chats-lab.github.io/KokoMind/ }
}