Il s'agit du dépôt de Kokomind , un ensemble de données avec des interactions sociales multipartites pour évaluer les capacités de compréhension sociale des LLMS. Le repo contient:
LOGO DE KOKOMIND .
Kokomind contient 150 interactions sociales multipartites complexes (50 par source) avec des questions et réponses en texte libre. Pour assurer la diversité et l'évolutivité et éviter la contamination des données, toutes les interactions sociales, questions et réponses sont générées par GPT-4 et vérifiées par des experts humains plus tard. Ces générations sont basées sur trois sources différentes:
Pour chaque interaction sociale, nous posons diverses questions conçues pour sonder les aspects suivants de la compréhension sociale.
question_nonverbal_yes_v0.1.json
contient 770 échantillons au total. Ce fichier de lignes JSON est une liste de dictionnaires, chaque dictionnaire contient les champs suivants:
question_id
: Int, l'ID unique de la question.text
: STR, contexte et question d'interaction sociale.answer
: STR, GPT-4 Réponse qui a été encore vérifiée par l'homme.source
: Str, l'une des trois sources de données: gpt-4
, movie
, tomi
.category
: STR, l'une des six catégories de questions: ToM
, Social Norm
, Emotion Recognition
, Social Relation
, Counterfactual
, Social Advice
. question_nonverbal_no_v0.1.json
contient les mêmes interactions et questions sociales mais mais avec les indices non verbaux de la parenthèse (par exemple, sirotant nerveusement le café, etc.) retiré du contexte.
pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >
# Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8
# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl
# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl
# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl
# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl
Notre évaluation est basée sur l'alpaca-eval.
# Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json
alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True
Ce projet est une vitrine de recherche en stade précoce, conçu uniquement à des fins non commerciales. Il adhère aux termes d'utilisation des données d'OpenAI et aux pratiques de confidentialité de ShareGPT. Faites-nous savoir si vous repérez des violations potentielles. Le code du logiciel est disponible sous la Licence 2.0 Apache.
Nous tenons à remercier Yejin Choi de UW, Louis-Philippe Morency de CMU, Jason Weston de Meta et Diyi Yang de Stanford pour leurs dialogues éclairants et leurs intrants constructifs. Le fondement théorique de Kokomind est basé sur la recherche de doctorat de Liang avec le chun-chun Zhu de l'Université de Pékin, de l'Université Tsinghua et de l'Institut de Beijing pour l'intelligence artificielle générale (Bigai) et Ying Nian Wu de l'UCLA.
Veuillez citer notre travail si vous le trouvez utile.
@misc { Shi_KokoMind_Can_Large_2023 ,
author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
month = jul,
year = { 2023 } ,
url = { https://chats-lab.github.io/KokoMind/ }
}