Este es el repositorio de Kokomind , un conjunto de datos con interacciones sociales de varias partes para evaluar las habilidades de comprensión social de LLM. El repositorio contiene:
Logotipo de Kokomind .
Kokomind contiene 150 interacciones sociales múltiples complejas (50 por fuente) con preguntas y respuestas de texto libre. Para garantizar la diversidad y la escalabilidad y evitar la contaminación de los datos, GPT-4 generan todas las interacciones sociales, preguntas y respuestas y verifican más tarde los expertos humanos. Estas generaciones se basan en tres fuentes diferentes:
Para cada interacción social, hacemos varias preguntas diseñadas para investigar los siguientes aspectos de la comprensión social.
question_nonverbal_yes_v0.1.json
contiene 770 muestras en total. Este archivo de líneas JSON es una lista de diccionarios, con cada diccionario contiene los siguientes campos:
question_id
: int, la identificación única de la pregunta.text
: STR, contexto de interacción social y pregunta.answer
: STR, GPT-4 Respuesta que ha sido verificada aún más por los humanos.source
: STR, una de las tres fuentes de datos: gpt-4
, movie
, tomi
.category
: STR, una de las seis categorías de preguntas: ToM
, Social Norm
, Emotion Recognition
, Social Relation
, Counterfactual
, Social Advice
. question_nonverbal_no_v0.1.json
contiene las mismas interacciones y preguntas sociales, pero con las señales no verbales en el paréntesis (por ejemplo, tomar un café nervioso, etc.) eliminados del contexto.
pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >
# Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8
# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl
# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl
# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl
# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl
Nuestra evaluación se basa en Alpaca-Eval.
# Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json
alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True
Este proyecto es una exhibición de investigación en etapa temprana, diseñada únicamente para fines no comerciales. Se adhiere a los términos de uso de datos de OpenAI y las prácticas de privacidad de ShareGPT. Háganos saber si ve alguna violación potencial. El código del software está disponible bajo la licencia Apache 2.0.
Nos gustaría agradecer a Yejin Choi de UW, Louis-Philippe Morency de CMU, Jason Weston de Meta y Diyi Yang de Stanford por sus diálogos esclarecedores y insumos constructivos. La fundación teórica de Kokomind se basa en la investigación de doctorado de Liang con Song-Chun Zhu de la Universidad de Pekín, la Universidad de Tsinghua y el Instituto de Beijing para la Inteligencia Artificial General (BigAi) y Ying Nian Wu de UCLA.
Por favor, cite nuestro trabajo si lo encuentra útil.
@misc { Shi_KokoMind_Can_Large_2023 ,
author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
month = jul,
year = { 2023 } ,
url = { https://chats-lab.github.io/KokoMind/ }
}