KokoMindダウンロードKokoMindソースコードのダウンロード

KokoMind

その他のソースコード

KokoMind 0.1 Release

ダウンロード

ココミンド

これは、LLMSの社会的理解能力を評価するためのマルチパーティの社会的相互作用を備えたデータセットであるKokomindのレポです。リポジトリには次のものが含まれています。

社会的相互作用の評価データ。
モデル評価のためのコード。
Kokomindのブログ投稿をチェックして、いくつかのデモをご覧ください。

Kokomindのロゴ。

ニュース

[2023.07.05] Kokomindはhttps://chats-lab.github.io/kokomind/でリリースされています。

デモ

Demo2.mp4

データセット

Kokomindには、フリーテキストの質問と回答を含む150の複雑なマルチパーティソーシャルインタラクション（ソースあたり50）が含まれています。多様性とスケーラビリティを確保し、データの汚染を回避するために、すべての社会的相互作用、質問、および回答はGPT-4によって生成され、後に人間の専門家によって検証されます。これらの世代は、3つの異なるソースに基づいています。

？ GPT-4のみ：このサブセットは、既存のソースを接地することなく、プロンプトを通じてGPT-4によってのみ作成されます。
？映画ベース：データの汚染を避けるために、データのこの部分は、2022年以降にリリースされた映画から引き出された多様なシナリオに基づいています。GPT-4はこれらの状況を形作り、独自の要素を追加しながらコアエッセンスを維持します。
？ TOMIベース：このセグメントには、シミュレートされたデータセットであるTomiによってバックボン化されたデータが含まれています。これには、物理的なオブジェクトをさまざまな場所に移動することが含まれます。これは、心の理論の古典的なテストです。これらの社会的相互作用は、GPT-4によって再び装飾され、拡張されます。

社会的相互作用ごとに、社会的理解の次の側面を調査するために設計されたさまざまな質問をします。

？心の理論：他人の精神状態と視点の理解を評価する質問。
？社会的規範：状況内の社会的価値と規範を識別することを目的とした質問。
？感情認識：コンテキスト内の感情的要素を特定して理解することを目的とした質問。
？‍？??社会的関係：対人的ダイナミクスと関係に焦点を当てたクエリ。
？反事実的な質問：代替の結果や可能性を探求するために設計された仮想クエリ。
ソーシャルアドバイス：特定の状況に関連するアドバイスやアクションの推奨事項を引き出す質問。

question_nonverbal_yes_v0.1.jsonこのJSONラインファイルは辞書のリストであり、各辞書には次のフィールドが含まれています。

question_id ：int、質問の一意のID。
text ：STR、社会的相互作用のコンテキストと質問。
answer ：STR、GPT-4人間によってさらに検証された回答。
source ：STR、3つのデータソースの1つ： gpt-4 、 movie 、 tomi 。
category ：STR、6つの質問カテゴリの1つ： ToM 、 Social Norm 、 Emotion Recognition 、 Social Relation 、 Counterfactual 、 Social Advice 。

question_nonverbal_no_v0.1.jsonには同じ社会的相互作用と質問が含まれていますが、括弧内の非言語的手がかり（たとえば、神経質にコーヒーをすすりなど）が文脈から削除されました。

評価

前提条件

pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >

モデルの回答を生成します

 # Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8

# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl

# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl

# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl

# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl

評価を実行します

私たちの評価は、Alpaca-Evalに基づいています。

 # Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json

alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True

ライセンス

このプロジェクトは、非営利目的のためだけに設計された初期段階の研究ショーケースです。 Openaiのデータ使用条件とShareGPTのプライバシー慣行に準拠しています。潜在的な違反を発見した場合はお知らせください。ソフトウェアのコードは、Apacheライセンス2.0で利用できます。

了承

UWのYejin Choi、CMUのLouis-Philippe Morency、MetaのJason Weston、StanfordのDiyi Yangに啓発的な対話と建設的な入力に感謝します。ココミンドの理論的基礎は、北京大学のソンチュン・Zhu、ティンシュア大学、UCLAの一般人工知能（BIGAI）の北京研究所（BIGAI）とYing Nian WuとのLiangの博士課程の研究に基づいています。

引用

あなたがそれが役に立つと思うなら、私たちの仕事を引用してください。

 @misc { Shi_KokoMind_Can_Large_2023 ,
  author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
  title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
  month = jul,
  year = { 2023 } ,
  url = { https://chats-lab.github.io/KokoMind/ }
}