これは、LLMSの社会的理解能力を評価するためのマルチパーティの社会的相互作用を備えたデータセットであるKokomindのレポです。リポジトリには次のものが含まれています。
Kokomindのロゴ。
Kokomindには、フリーテキストの質問と回答を含む150の複雑なマルチパーティソーシャルインタラクション(ソースあたり50)が含まれています。多様性とスケーラビリティを確保し、データの汚染を回避するために、すべての社会的相互作用、質問、および回答はGPT-4によって生成され、後に人間の専門家によって検証されます。これらの世代は、3つの異なるソースに基づいています。
社会的相互作用ごとに、社会的理解の次の側面を調査するために設計されたさまざまな質問をします。
question_nonverbal_yes_v0.1.json
このJSONラインファイルは辞書のリストであり、各辞書には次のフィールドが含まれています。
question_id
:int、質問の一意のID。text
:STR、社会的相互作用のコンテキストと質問。answer
:STR、GPT-4人間によってさらに検証された回答。source
:STR、3つのデータソースの1つ: gpt-4
、 movie
、 tomi
。category
:STR、6つの質問カテゴリの1つ: ToM
、 Social Norm
、 Emotion Recognition
、 Social Relation
、 Counterfactual
、 Social Advice
。 question_nonverbal_no_v0.1.json
には同じ社会的相互作用と質問が含まれていますが、括弧内の非言語的手がかり(たとえば、神経質にコーヒーをすすりなど)が文脈から削除されました。
pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >
# Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8
# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl
# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl
# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl
# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl
私たちの評価は、Alpaca-Evalに基づいています。
# Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json
alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True
このプロジェクトは、非営利目的のためだけに設計された初期段階の研究ショーケースです。 Openaiのデータ使用条件とShareGPTのプライバシー慣行に準拠しています。潜在的な違反を発見した場合はお知らせください。ソフトウェアのコードは、Apacheライセンス2.0で利用できます。
UWのYejin Choi、CMUのLouis-Philippe Morency、MetaのJason Weston、StanfordのDiyi Yangに啓発的な対話と建設的な入力に感謝します。ココミンドの理論的基礎は、北京大学のソンチュン・Zhu、ティンシュア大学、UCLAの一般人工知能(BIGAI)の北京研究所(BIGAI)とYing Nian WuとのLiangの博士課程の研究に基づいています。
あなたがそれが役に立つと思うなら、私たちの仕事を引用してください。
@misc { Shi_KokoMind_Can_Large_2023 ,
author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
month = jul,
year = { 2023 } ,
url = { https://chats-lab.github.io/KokoMind/ }
}