Dies ist das Repo für Kokomind , ein Datensatz mit mehrteiligen sozialen Interaktionen zur Bewertung der sozialen Verständnisfähigkeiten von LLMs. Das Repo enthält:
Logo von Kokomind .
Kokomind enthält 150 komplexe soziale Interaktionen mit mehreren Parteien (50 pro Quelle) mit Free-Text-Fragen und Antworten. Um die Vielfalt und Skalierbarkeit zu gewährleisten und Datenkontamination zu vermeiden, werden alle sozialen Interaktionen, Fragen und Antworten von GPT-4 generiert und später von menschlichen Experten verifiziert. Diese Generationen basieren auf drei verschiedenen Quellen:
Für jede soziale Interaktion stellen wir verschiedene Fragen, die die folgenden Aspekte des sozialen Verständnisses untersuchen sollen.
question_nonverbal_yes_v0.1.json
enthält insgesamt 770 Proben. Diese JSON -Zeilendatei ist eine Liste von Wörterbüchern, wobei jedes Wörterbuch die folgenden Felder enthält:
question_id
: INT, die eindeutige ID der Frage.text
: STR, Kontext und Frage der sozialen Interaktion.answer
: STR, GPT-4-Antwort, die vom Menschen weiter verifiziert wurde.source
: Str, eine der drei Datenquellen: gpt-4
, movie
, tomi
.category
: STR, eine von sechs Fragenkategorien: ToM
, Social Norm
, Emotion Recognition
, Social Relation
, Counterfactual
, Social Advice
. question_nonverbal_no_v0.1.json
enthält die gleichen sozialen Interaktionen und Fragen, jedoch jedoch mit den nonverbalen Hinweisen in der Klammern (z. B. nervös, kaffee usw.) aus dem Kontext entfernt.
pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >
# Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8
# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl
# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl
# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl
# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl
Unsere Bewertung basiert auf Alpaca-Eval.
# Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json
alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True
Dieses Projekt ist ein Forschungserscheinungsbild im Frühstadium, das ausschließlich für nichtkommerzielle Zwecke entwickelt wurde. Es hält sich an die Datennutzungsbedingungen von Openai und die Datenschutzpraktiken von Sharegpt. Lassen Sie uns wissen, ob Sie potenzielle Verstöße erkennen. Der Code der Software ist unter der Apache -Lizenz 2.0 verfügbar.
Wir möchten Yejin Choi von UW, Louis-Philippe Morency von CMU, Jason Weston von Meta und Diyi Yang von Stanford für ihre aufschlussreichen Dialoge und konstruktiven Eingaben danken. Die theoretische Stiftung von Kokomind basiert auf Liangs Doktorarbeit mit Song-Chun Zhu von der Peking University, der Tsinghua University und dem Peking Institute for General Artificial Intelligence (Bigai) und Ying Nian Wu von der UCLA.
Bitte zitieren Sie unsere Arbeit, wenn Sie sie nützlich finden.
@misc { Shi_KokoMind_Can_Large_2023 ,
author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
month = jul,
year = { 2023 } ,
url = { https://chats-lab.github.io/KokoMind/ }
}