Скачать KokoMind - скачать исходный код KokoMind

KokoMind

Другой исходный код

KokoMind 0.1 Release

Скачать

Кокоминд

Это репо для Kokomind , набор данных с многопартийным социальным взаимодействием для оценки способностей социального понимания LLMS. Репо содержит:

Данные оценки социальных взаимодействий.
Код для оценки модели.
Проверьте сообщение в блоге Kokomind, чтобы увидеть демо.

Логотип Кокоминда .

Новости

[2023.07.05] Kokomind выпускается по адресу https://chats-lab.github.io/kokomind/.

Демо

Demo2.mp4

Набор данных

Kokomind содержит 150 сложных многопартийных социальных взаимодействий (50 на источник) с вопросами и ответами свободного текста. Чтобы обеспечить разнообразие и масштабируемость и избежать загрязнения данных, все социальные взаимодействия, вопросы и ответы генерируются GPT-4 и подтверждаются человеческими экспертами позже. Эти поколения основаны на трех разных источниках:

? Только GPT-4: это подмножество создается исключительно GPT-4 путем подсказки без заземления на существующих источниках.
? На основе фильмов: чтобы избежать загрязнения данных, эта часть данных основана на различных сценариях, полученных из фильмов, выпущенных после 2022 года. GPT-4 формирует эти ситуации, поддерживая основную сущность, добавляя свои собственные элементы.
? На основе TOMI: этот сегмент содержит данные, задерживаемые моделируемым набором данных Tomi, который включает в себя перемещение физических объектов в разные места, классический тест для теории ума. Эти социальные взаимодействия снова украшены и расширены GPT-4.

Для каждого социального взаимодействия мы задаем различные вопросы, предназначенные для исследования следующих аспектов социального понимания.

? Теория ума: вопросы, оценивающие понимание психических состояний и перспектив других людей.
? Социальная норма: вопросы, направленные на различие социальных ценностей и норм в ситуациях.
? Распознавание эмоций: вопросы, направленные на выявление и понимание эмоциональных элементов в контексте.
?‍?‍? Социальные отношения: запросы, сосредоточенные на межличностной динамике и отношениях.
? Контрфактивные вопросы: гипотетические запросы, предназначенные для изучения альтернативных результатов или возможностей.
Социальные советы: вопросы, выявляющие советы или рекомендации по действию, относящиеся к данной ситуации.

question_nonverbal_yes_v0.1.json содержит 770 образцов в общей сложности. Этот файл линий JSON представляет собой список словарей, с каждым словарем содержит следующие поля:

question_id : int, уникальный идентификатор вопроса.
text : Str, контекст социального взаимодействия и вопрос.
answer : STR, GPT-4 Ответ, который был дополнительно подтвержден человеком.
source : Str, один из трех источников данных: gpt-4 , movie , tomi .
category : Str, одна из шести вопросов категорий: ToM , Social Norm , Emotion Recognition , Social Relation , Counterfactual , Social Advice .

question_nonverbal_no_v0.1.json содержит те же социальные взаимодействия и вопросы, но с невербальными сигналами в скобках (например, нервно потягивая кофе и т. Д.), Устраненные из контекста.

Оценка

Предварительное условие

pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >

Генерировать ответы на модели

 # Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8

# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl

# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl

# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl

# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl

Запустить оценку

Наша оценка основана на Alpaca-Eval.

 # Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json

alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True

Лицензия

Этот проект является демонстрацией исследований на ранней стадии, разработанной исключительно для некоммерческих целей. Он придерживается условий использования данных OpenAI и практики конфиденциальности ShareGPT. Дайте нам знать, если вы заметите какие -либо потенциальные нарушения. Код программного обеспечения доступен в соответствии с лицензией Apache 2.0.

Подтверждение

Мы хотели бы поблагодарить Йеджина Чой из UW, Луи-Филипп Morence из CMU, Джейсона Уэстона из Meta и Diyi Yang из Стэнфорда за их просвещающие диалоги и конструктивные входные данные. Теоретическая основа Kokomind основана на исследовании Liang's PhD с Song-Chun Zhu из Пекинского университета, Университета Цинхуа и Института общего искусственного интеллекта (Bigai) и Ying Nian Wu из UCLA.

Цитирование

Пожалуйста, упоминайте нашу работу, если вы найдете ее полезной.

 @misc { Shi_KokoMind_Can_Large_2023 ,
  author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
  title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
  month = jul,
  year = { 2023 } ,
  url = { https://chats-lab.github.io/KokoMind/ }
}