هذا هو repo لـ Kokomind ، وهي مجموعة بيانات ذات تفاعلات اجتماعية متعددة الأحزاب لتقييم قدرات الفهم الاجتماعي لـ LLMS. الريبو يحتوي على:
شعار Kokomind .
يحتوي Kokomind على 150 تفاعلات اجتماعية متعددة الأحزاب (50 لكل مصدر) مع أسئلة وإجابات النص المجاني. لضمان التنوع وقابلية التوسع وتجنب تلوث البيانات ، يتم إنشاء جميع التفاعلات الاجتماعية والأسئلة والإجابات بواسطة GPT-4 والتحقق منها من قبل الخبراء البشريين في وقت لاحق. تعتمد هذه الأجيال على ثلاثة مصادر مختلفة:
لكل تفاعل اجتماعي ، نطرح أسئلة مختلفة مصممة للتحقيق في الجوانب التالية من الفهم الاجتماعي.
question_nonverbal_yes_v0.1.json
يحتوي على 770 عينة في المجموع. ملف JSON Lines هذا هو قائمة القواميس ، مع كل قاموس يحتوي على الحقول التالية:
question_id
: int ، المعرف الفريد للسؤال.text
: STR ، سياق التفاعل الاجتماعي والسؤال.answer
: STR ، GPT-4 الإجابة التي تم التحقق منها من قبل الإنسان.source
: STR ، أحد مصادر البيانات الثلاثة: gpt-4
، movie
، tomi
.category
: STR ، واحدة من ستة فئات أسئلة: ToM
، Social Norm
، Emotion Recognition
، Social Relation
، المشورة Counterfactual
، Social Advice
. question_nonverbal_no_v0.1.json
يحتوي على نفس التفاعلات والأسئلة الاجتماعية ولكن مع الإشارات غير اللفظية في قوسين (على سبيل المثال ، تحتسي القهوة بعصبية ، إلخ) من السياق.
pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >
# Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8
# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl
# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl
# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl
# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl
يعتمد تقييمنا على الألبكة-eval.
# Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json
alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True
هذا المشروع عبارة عن عرض أبحاث في مرحلة مبكرة ، مصمم فقط لأغراض غير تجارية. يلتزم بمصطلحات استخدام البيانات الخاصة بـ Openai ، وممارسات الخصوصية الخاصة بمشاركة. أخبرنا إذا اكتشفت أي انتهاكات محتملة. رمز البرنامج متاح ضمن ترخيص Apache 2.0.
نود أن نشكر Yejin Choi من UW و Louis-Philippe Morency من CMU و Jason Weston من Meta و Diyi Yang من Stanford على حواراتهم المفيدة والمدخلات البناءة. يعتمد الأساس النظري لـ Kokomind على بحث الدكتوراه في Liang مع Song-Chun Zhu من جامعة بكين ، وجامعة Tsinghua ومعهد بكين للذكاء الاصطناعي العام (Bigai) ويينغ نيان وو من جامعة كاليفورنيا في لوس أنجلوس.
يرجى الاستشهاد بعملنا إذا وجدت أنه مفيد.
@misc { Shi_KokoMind_Can_Large_2023 ,
author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
month = jul,
year = { 2023 } ,
url = { https://chats-lab.github.io/KokoMind/ }
}