นี่คือ repo สำหรับ Kokomind ชุดข้อมูลที่มีปฏิสัมพันธ์ทางสังคมหลายพรรคเพื่อประเมินความสามารถในการทำความเข้าใจทางสังคมของ LLMS repo ประกอบด้วย:
โลโก้ของ Kokomind
Kokomind มีปฏิสัมพันธ์ทางสังคมหลายพรรคที่ซับซ้อน 150 (50 ต่อแหล่ง) พร้อมคำถามและคำตอบข้อความฟรี เพื่อให้แน่ใจว่ามีความหลากหลายและความยืดหยุ่นและหลีกเลี่ยงการปนเปื้อนข้อมูลปฏิสัมพันธ์ทางสังคมคำถามและคำตอบทั้งหมดถูกสร้างขึ้นโดย GPT-4 และตรวจสอบโดยผู้เชี่ยวชาญของมนุษย์ในภายหลัง รุ่นเหล่านี้ขึ้นอยู่กับสามแหล่งที่แตกต่างกัน:
สำหรับการปฏิสัมพันธ์ทางสังคมแต่ละครั้งเราถามคำถามต่าง ๆ ที่ออกแบบมาเพื่อตรวจสอบแง่มุมของความเข้าใจทางสังคมต่อไปนี้
question_nonverbal_yes_v0.1.json
มีตัวอย่างทั้งหมด 770 ตัวอย่าง ไฟล์บรรทัด JSON นี้เป็นรายการพจนานุกรมโดยแต่ละพจนานุกรมมีฟิลด์ต่อไปนี้:
question_id
: int, รหัสที่ไม่ซ้ำกันของคำถามtext
: Str, บริบทและคำถามปฏิสัมพันธ์ทางสังคมanswer
: STR, GPT-4 คำตอบที่มนุษย์ได้รับการตรวจสอบเพิ่มเติมsource
: STR หนึ่งในสามแหล่งข้อมูล: gpt-4
, movie
, tomi
category
: STR, หนึ่งในหกประเภทคำถาม: ToM
, Social Norm
, Emotion Recognition
, Social Relation
, Counterfactual
, Social Advice
question_nonverbal_no_v0.1.json
มีปฏิสัมพันธ์และคำถามทางสังคมเดียวกัน แต่ด้วยตัวชี้นำที่ไม่ใช่คำพูดในวงเล็บ (เช่นจิบกาแฟ ฯลฯ ) ที่ถูกลบออกจากบริบท
pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >
# Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8
# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl
# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl
# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl
# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl
การประเมินของเราขึ้นอยู่กับ Alpaca-Eval
# Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json
alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True
โครงการนี้เป็นงานวิจัยการวิจัยระยะแรกที่ออกแบบมาเพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์เท่านั้น มันปฏิบัติตามข้อกำหนดการใช้ข้อมูลของ OpenAI และแนวทางปฏิบัติด้านความเป็นส่วนตัวของ ShareGPT แจ้งให้เราทราบหากคุณเห็นการละเมิดที่อาจเกิดขึ้น รหัสของซอฟต์แวร์พร้อมใช้งานภายใต้ Apache License 2.0
เราขอขอบคุณ Yejin Choi จาก UW, Louis-Philippe Morency จาก CMU, Jason Weston จาก Meta และ Diyi Yang จาก Stanford สำหรับบทสนทนาที่รู้แจ้งและอินพุตที่สร้างสรรค์ รากฐานทางทฤษฎีของ Kokomind นั้นมีพื้นฐานมาจากการวิจัยระดับปริญญาเอกของ Liang กับ Song-Chun Zhu จากมหาวิทยาลัยปักกิ่ง, มหาวิทยาลัย Tsinghua และ Institute Beijing สำหรับปัญญาประดิษฐ์ทั่วไป (BIGAI) และ Ying Nian Wu จาก UCLA
โปรดอ้างอิงงานของเราหากคุณพบว่ามีประโยชน์
@misc { Shi_KokoMind_Can_Large_2023 ,
author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
month = jul,
year = { 2023 } ,
url = { https://chats-lab.github.io/KokoMind/ }
}