Ini adalah repo untuk Kokomind , dataset dengan interaksi sosial multi-partai untuk mengevaluasi kemampuan pemahaman sosial LLMS. Repo berisi:
Logo Kokomind .
Kokomind berisi 150 interaksi sosial multi-partai yang kompleks (50 per sumber) dengan pertanyaan dan jawaban teks bebas. Untuk memastikan keragaman dan skalabilitas dan menghindari kontaminasi data, semua interaksi sosial, pertanyaan, dan jawaban dihasilkan oleh GPT-4 dan diverifikasi oleh para ahli manusia nanti. Generasi ini didasarkan pada tiga sumber yang berbeda:
Untuk setiap interaksi sosial, kami mengajukan berbagai pertanyaan yang dirancang untuk menyelidiki aspek pemahaman sosial berikut.
question_nonverbal_yes_v0.1.json
berisi 770 sampel secara total. File baris JSON ini adalah daftar kamus, dengan masing -masing kamus berisi bidang -bidang berikut:
question_id
: Int, ID unik dari pertanyaan tersebut.text
: STR, konteks dan pertanyaan interaksi sosial.answer
: STR, GPT-4 Jawaban yang telah diverifikasi lebih lanjut oleh manusia.source
: STR, salah satu dari tiga sumber data: gpt-4
, movie
, tomi
.category
: STR, salah satu dari enam kategori pertanyaan: ToM
, Social Norm
, Emotion Recognition
, Social Relation
, Counterfactual
, Social Advice
. question_nonverbal_no_v0.1.json
berisi interaksi dan pertanyaan sosial yang sama tetapi tetapi dengan isyarat non-verbal dalam tanda kurung (misalnya, dengan gugup menyeruput kopi, dll) dihapus dari konteks.
pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >
# Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8
# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl
# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl
# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl
# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl
Evaluasi kami didasarkan pada alpaca-eval.
# Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json
alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True
Proyek ini adalah showcase penelitian tahap awal, yang dirancang semata-mata untuk tujuan non-komersial. Ini menganut ketentuan penggunaan data OpenAI, dan praktik privasi Sharegpt. Beri tahu kami jika Anda menemukan potensi pelanggaran. Kode perangkat lunak tersedia di bawah Lisensi Apache 2.0.
Kami ingin mengucapkan terima kasih kepada Yejin Choi dari UW, Louis-Philippe Morency dari CMU, Jason Weston dari Meta, dan Diyi Yang dari Stanford untuk dialog mereka yang mencerahkan dan input konstruktif. Landasan teoritis Kokomind didasarkan pada penelitian PhD Liang dengan lagu-chun Zhu dari Universitas Peking, Universitas Tsinghua dan Institut Beijing untuk Kecerdasan Buatan Umum (Bigai) dan Ying Nian Wu dari UCLA.
Harap kutip pekerjaan kami jika Anda merasa berguna.
@misc { Shi_KokoMind_Can_Large_2023 ,
author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
month = jul,
year = { 2023 } ,
url = { https://chats-lab.github.io/KokoMind/ }
}