Téléchargement de KokoMind - Téléchargement du code source KokoMind

KokoMind

Autre code source

KokoMind 0.1 Release

Télécharger

Kokomind

Il s'agit du dépôt de Kokomind , un ensemble de données avec des interactions sociales multipartites pour évaluer les capacités de compréhension sociale des LLMS. Le repo contient:

Les données d'évaluation des interactions sociales.
Le code d'évaluation du modèle.
Consultez le billet de blog de Kokomind pour voir des démos.

LOGO DE KOKOMIND .

Nouvelles

[2023.07.05] Kokomind est publié sur https://chats-lab.github.io/kokomind/.

Démo

Demo2.mp4

Ensemble de données

Kokomind contient 150 interactions sociales multipartites complexes (50 par source) avec des questions et réponses en texte libre. Pour assurer la diversité et l'évolutivité et éviter la contamination des données, toutes les interactions sociales, questions et réponses sont générées par GPT-4 et vérifiées par des experts humains plus tard. Ces générations sont basées sur trois sources différentes:

? GPT-4-uniquement: ce sous-ensemble est créé uniquement par GPT-4 par l'incitation, sans fonder sur les sources existantes.
? Basée sur le film: Pour éviter la contamination des données, cette partie des données est fondée sur divers scénarios tirés des films publiés après 2022. GPT-4 façonne ces situations, en maintenant l'essence centrale tout en ajoutant ses propres éléments.
? Basé sur Tomi: Ce segment contient des données en arrière par un ensemble de données simulé, Tomi, qui consiste à déplacer des objets physiques à différents endroits, un test classique pour la théorie de l'esprit. Ces interactions sociales sont à nouveau embellies et élargies par GPT-4.

Pour chaque interaction sociale, nous posons diverses questions conçues pour sonder les aspects suivants de la compréhension sociale.

? Théorie de l'esprit: questions évaluant la compréhension des états mentaux et des perspectives des autres.
? Norme sociale: questions visant à discerner les valeurs et les normes sociétales dans les situations.
? Reconnaissance des émotions: questions visant à identifier et à comprendre les éléments émotionnels dans le contexte.
?‍?‍? Relation sociale: requêtes axées sur la dynamique et les relations interpersonnelles.
? Questions contrefactuelles: Quéries hypothétiques conçues pour explorer d'autres résultats ou possibilités.
Conseils sociaux: questions suscitant des conseils ou des recommandations d'action pertinentes pour la situation donnée.

question_nonverbal_yes_v0.1.json contient 770 échantillons au total. Ce fichier de lignes JSON est une liste de dictionnaires, chaque dictionnaire contient les champs suivants:

question_id : Int, l'ID unique de la question.
text : STR, contexte et question d'interaction sociale.
answer : STR, GPT-4 Réponse qui a été encore vérifiée par l'homme.
source : Str, l'une des trois sources de données: gpt-4 , movie , tomi .
category : STR, l'une des six catégories de questions: ToM , Social Norm , Emotion Recognition , Social Relation , Counterfactual , Social Advice .

question_nonverbal_no_v0.1.json contient les mêmes interactions et questions sociales mais mais avec les indices non verbaux de la parenthèse (par exemple, sirotant nerveusement le café, etc.) retiré du contexte.

Évaluation

Condition préalable

pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >

Générer des réponses du modèle

 # Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8

# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl

# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl

# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl

# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl

Évaluation de l'exécution

Notre évaluation est basée sur l'alpaca-eval.

 # Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json

alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True

Licence

Ce projet est une vitrine de recherche en stade précoce, conçu uniquement à des fins non commerciales. Il adhère aux termes d'utilisation des données d'OpenAI et aux pratiques de confidentialité de ShareGPT. Faites-nous savoir si vous repérez des violations potentielles. Le code du logiciel est disponible sous la Licence 2.0 Apache.

Reconnaissance

Nous tenons à remercier Yejin Choi de UW, Louis-Philippe Morency de CMU, Jason Weston de Meta et Diyi Yang de Stanford pour leurs dialogues éclairants et leurs intrants constructifs. Le fondement théorique de Kokomind est basé sur la recherche de doctorat de Liang avec le chun-chun Zhu de l'Université de Pékin, de l'Université Tsinghua et de l'Institut de Beijing pour l'intelligence artificielle générale (Bigai) et Ying Nian Wu de l'UCLA.

Citation

Veuillez citer notre travail si vous le trouvez utile.

 @misc { Shi_KokoMind_Can_Large_2023 ,
  author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
  title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
  month = jul,
  year = { 2023 } ,
  url = { https://chats-lab.github.io/KokoMind/ }
}

Développer

Informations supplémentaires

Version KokoMind 0.1 Release
Type Autre code source
Date de mise à jour 2025-02-26
taille 52.7MB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
Sunamu

Autre code source

Release 2.2.0
MySchedule.py

Autre code source

Updates to the fetching of week codes
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout