Descarga de KokoMind - Descarga del código fuente KokoMind

KokoMind

Otro código fuente

KokoMind 0.1 Release

Descargar

Kokomind

Este es el repositorio de Kokomind , un conjunto de datos con interacciones sociales de varias partes para evaluar las habilidades de comprensión social de LLM. El repositorio contiene:

Los datos de evaluación de las interacciones sociales.
El código para la evaluación del modelo.
Mira la publicación del blog de Kokomind para ver algunas demostraciones.

Logotipo de Kokomind .

Noticias

[2023.07.05] Kokomind se lanza en https://chats-lab.github.io/kokomind/.

Manifestación

demo2.mp4

Conjunto de datos

Kokomind contiene 150 interacciones sociales múltiples complejas (50 por fuente) con preguntas y respuestas de texto libre. Para garantizar la diversidad y la escalabilidad y evitar la contaminación de los datos, GPT-4 generan todas las interacciones sociales, preguntas y respuestas y verifican más tarde los expertos humanos. Estas generaciones se basan en tres fuentes diferentes:

? GPT-4 solo: este subconjunto es creado únicamente por GPT-4 a través de la solicitud, sin base en las fuentes existentes.
? Basado en películas: para evitar la contaminación de datos, esta parte de los datos se basa en diversos escenarios extraídos de películas lanzadas después de 2022. GPT-4 da forma a estas situaciones, manteniendo la esencia central mientras agrega sus propios elementos.
? Basado en Tomi: este segmento contiene datos retrocedidos por un conjunto de datos simulado, Tomi, que implica mover objetos físicos a diferentes lugares, una prueba clásica para la teoría de la mente. Estas interacciones sociales vuelven a embellecer y ampliar por GPT-4.

Para cada interacción social, hacemos varias preguntas diseñadas para investigar los siguientes aspectos de la comprensión social.

? Teoría de la mente: preguntas que evalúan la comprensión de los estados mentales y las perspectivas de los demás.
? Norma social: preguntas con el objetivo de discernir valores y normas sociales dentro de las situaciones.
? Reconocimiento de emociones: preguntas dirigidas a identificar y comprender elementos emocionales dentro del contexto.
?‍?‍?? Relación social: consultas que se centran en la dinámica y las relaciones interpersonales.
? Preguntas contrafactuales: consultas hipotéticas diseñadas para explorar resultados o posibilidades alternativas.
Asesoramiento social: preguntas que provocan consejos o recomendaciones de acción relevantes para la situación dada.

question_nonverbal_yes_v0.1.json contiene 770 muestras en total. Este archivo de líneas JSON es una lista de diccionarios, con cada diccionario contiene los siguientes campos:

question_id : int, la identificación única de la pregunta.
text : STR, contexto de interacción social y pregunta.
answer : STR, GPT-4 Respuesta que ha sido verificada aún más por los humanos.
source : STR, una de las tres fuentes de datos: gpt-4 , movie , tomi .
category : STR, una de las seis categorías de preguntas: ToM , Social Norm , Emotion Recognition , Social Relation , Counterfactual , Social Advice .

question_nonverbal_no_v0.1.json contiene las mismas interacciones y preguntas sociales, pero con las señales no verbales en el paréntesis (por ejemplo, tomar un café nervioso, etc.) eliminados del contexto.

Evaluación

Requisito previo

pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >

Generar respuestas del modelo

 # Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8

# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl

# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl

# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl

# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl

Evaluación de ejecución

Nuestra evaluación se basa en Alpaca-Eval.

 # Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json

alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True

Licencia

Este proyecto es una exhibición de investigación en etapa temprana, diseñada únicamente para fines no comerciales. Se adhiere a los términos de uso de datos de OpenAI y las prácticas de privacidad de ShareGPT. Háganos saber si ve alguna violación potencial. El código del software está disponible bajo la licencia Apache 2.0.

Reconocimiento

Nos gustaría agradecer a Yejin Choi de UW, Louis-Philippe Morency de CMU, Jason Weston de Meta y Diyi Yang de Stanford por sus diálogos esclarecedores y insumos constructivos. La fundación teórica de Kokomind se basa en la investigación de doctorado de Liang con Song-Chun Zhu de la Universidad de Pekín, la Universidad de Tsinghua y el Instituto de Beijing para la Inteligencia Artificial General (BigAi) y Ying Nian Wu de UCLA.

Citación

Por favor, cite nuestro trabajo si lo encuentra útil.

 @misc { Shi_KokoMind_Can_Large_2023 ,
  author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
  title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
  month = jul,
  year = { 2023 } ,
  url = { https://chats-lab.github.io/KokoMind/ }
}

Expandir

Información adicional

Versión KokoMind 0.1 Release
Tipo Otro código fuente
Fecha de actualización 2025-02-26
tamaño 52.7MB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
Sunamu

Otro código fuente

Release 2.2.0
MySchedule.py

Otro código fuente

Updates to the fetching of week codes
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo