Download de KokoMind - Download de código fonte de KokoMind

KokoMind

Outro código-fonte

KokoMind 0.1 Release

Baixar

Kokomind

Este é o repositório da Kokomind , um conjunto de dados com interações sociais multipartidárias para avaliar as habilidades de entendimento social da LLMS. O repo contém:

Os dados de avaliação das interações sociais.
O código para avaliação do modelo.
Confira a postagem do blog de Kokomind para ver algumas demos.

Logotipo de Kokomind .

Notícias

[2023.07.05] Kokomind é lançado em https://chats-lab.github.io/kokomind/.

Demonstração

Demo2.mp4

Conjunto de dados

O Kokomind contém 150 interações sociais multipartidárias complexas (50 por fonte) com perguntas e respostas de texto livre. Para garantir a diversidade e escalabilidade e evitar a contaminação dos dados, todas as interações, perguntas e respostas sociais são geradas pelo GPT-4 e verificadas por especialistas humanos posteriormente. Essas gerações são baseadas em três fontes diferentes:

? GPT-4-4: Este subconjunto é criado apenas pelo GPT-4 através do aviso, sem fundamentar as fontes existentes.
? Baseado no filme: para evitar a contaminação dos dados, essa parte dos dados é fundamentada em diversos cenários retirados dos filmes lançados após 2022. O GPT-4 molda essas situações, mantendo a essência central e adicionando seus próprios elementos.
? Baseado em Tomi: Este segmento contém dados em backbonned por um conjunto de dados simulado, Tomi, que envolve a movimentação de objetos físicos para diferentes lugares, um teste clássico para a teoria da mente. Essas interações sociais são novamente embelezadas e expandidas pelo GPT-4.

Para cada interação social, fazemos várias perguntas projetadas para investigar os seguintes aspectos da compreensão social.

? Teoria da mente: questões que avaliam a compreensão dos estados e perspectivas mentais de outras pessoas.
? Norma social: perguntas que visam discernir valores e normas sociais dentro das situações.
? Reconhecimento de emoções: perguntas direcionadas para identificar e entender elementos emocionais no contexto.
?‍?‍? Relação social: consultas com foco na dinâmica e nos relacionamentos interpessoais.
? Perguntas contrafactuais: consultas hipotéticas projetadas para explorar resultados ou possibilidades alternativas.
Aconselhamento social: perguntas que provêm conselhos ou recomendações de ação relevantes para a situação especificada.

question_nonverbal_yes_v0.1.json contém 770 amostras no total. Este arquivo de linhas JSON é uma lista de dicionários, com cada dicionário contém os seguintes campos:

question_id : int, o ID exclusivo da pergunta.
text : STR, contexto de interação social e pergunta.
answer : STR, resposta GPT-4 que foi ainda mais verificada pelo humano.
source : STR, uma das três fontes de dados: gpt-4 , movie , tomi .
category : STR, uma das seis categorias de perguntas: ToM , Social Norm , Emotion Recognition , Social Relation , Counterfactual , Social Advice .

question_nonverbal_no_v0.1.json contém as mesmas interações e perguntas sociais, mas com as pistas não verbais nos parênteses (por exemplo, tomando um café nervosamente, etc.) removidos do contexto.

Avaliação

Pré-requisito

pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >

Gerar respostas do modelo

 # Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8

# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl

# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl

# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl

# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl

Executar avaliação

Nossa avaliação é baseada em alpaca-eval.

 # Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json

alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True

Licença

Este projeto é uma vitrine de pesquisa em estágio inicial, projetado apenas para fins não comerciais. Adere aos termos de uso de dados da OpenAI e as práticas de privacidade do ShareGPT. Deixe -nos saber se você identificar alguma violações em potencial. O código do software está disponível no Apache License 2.0.

Reconhecimento

Gostaríamos de agradecer a Yejin Choi da UW, da Morência de Louis-Philippe da CMU, Jason Weston de Meta e Diyi Yang de Stanford por seus diálogos esclarecedores e entradas construtivas. A fundação teórica de Kokomind é baseada na pesquisa de doutorado de Liang com Song-Chun Zhu pela Universidade de Pequim, Universidade de Tsinghua e Instituto de Inteligência Artificial Geral (Bigai) e Ying Nian Wu da UCLA.

Citação

Cite nosso trabalho se achar útil.

 @misc { Shi_KokoMind_Can_Large_2023 ,
  author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
  title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
  month = jul,
  year = { 2023 } ,
  url = { https://chats-lab.github.io/KokoMind/ }
}

Expandir

Informações adicionais

Versão KokoMind 0.1 Release
Tipo Outro código-fonte
Data da Última Atualização 2025-02-26
tamanho 52.7MB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
Sunamu

Outro código-fonte

Release 2.2.0
MySchedule.py

Outro código-fonte

Updates to the fetching of week codes
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos