KokoMind
KokoMind 0.1 Release
這是Kokomind的回購,Kokomind是一個具有多方社交互動的數據集,可以評估LLMS的社會理解能力。存儲庫包含:
Kokomind的徽標。
Kokomind包含150個複雜的多方社交互動(每個來源50個),帶有自由文本的問題和答案。為了確保多樣性和可擴展性並避免數據污染,GPT-4產生了所有社交互動,問題和答案,並在後來由人類專家進行了驗證。這些幾代是基於三個不同來源的:
對於每次社會互動,我們提出了旨在探討社會理解以下方面的各種問題。
question_nonverbal_yes_v0.1.json
總共包含770個樣本。此JSON行文件是字典列表,每個字典都包含以下字段:
question_id
:INT,問題的獨特ID。text
:STR,社交互動上下文和問題。answer
:STR,GPT-4答案已由人類進一步驗證。source
:Str,這是三個數據來源之一: gpt-4
, movie
, tomi
。category
:STR,六個問題類別之一: ToM
, Social Norm
, Emotion Recognition
, Social Relation
, Counterfactual
, Social Advice
。 question_nonverbal_no_v0.1.json
包含相同的社交互動和問題,但是卻帶有括號中的非語言提示(例如,緊張地喝咖啡等)從上下文中刪除。
pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >
# Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8
# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl
# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl
# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl
# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl
我們的評估基於羊駝毛。
# Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json
alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True
該項目是一個早期的研究展示,僅專為非商業目的而設計。它遵守OpenAI的數據使用條款以及ShareGPT的隱私慣例。如果您發現任何潛在的違規行為,請告訴我們。該軟件的代碼可在Apache許可證2.0下獲得。
我們要感謝UW的Yejin Choi,CMU的Louis-Philippe Morency,Meta的Jason Weston和Stanford的Diyi Yang的啟發性對話和建設性投入。 Kokomind的理論基礎是基於Liang的博士研究,該博士學位與北京大學,Tsinghua大學和北京通用人工智能研究所(BIGAI)和UCLA的Ying Nian Wu的Song-Chun Zhu基礎。
如果您覺得有用,請引用我們的工作。
@misc { Shi_KokoMind_Can_Large_2023 ,
author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
month = jul,
year = { 2023 } ,
url = { https://chats-lab.github.io/KokoMind/ }
}