KokoMind下載KokoMind源代碼下載

KokoMind

其他源碼

KokoMind 0.1 Release

下載

Kokomind

這是Kokomind的回購，Kokomind是一個具有多方社交互動的數據集，可以評估LLMS的社會理解能力。存儲庫包含：

社交互動的評估數據。
模型評估的代碼。
查看Kokomind的博客文章以查看一些演示。

Kokomind的徽標。

消息

[2023.07.05] Kokomind在https://chats-lab.github.io/kokomind/上發布。

演示

demo2.mp4

數據集

Kokomind包含150個複雜的多方社交互動（每個來源50個），帶有自由文本的問題和答案。為了確保多樣性和可擴展性並避免數據污染，GPT-4產生了所有社交互動，問題和答案，並在後來由人類專家進行了驗證。這些幾代是基於三個不同來源的：

？僅GPT-4：此子集僅是由GPT-4通過提示創建的，而無需基於現有資源。
？基於電影的：為避免數據污染，這部分數據基於2022年後發行的電影所吸引的各種場景。GPT-4形狀這些情況，在添加自己的元素的同時保持了核心本質。
？基於TOMI的：該細分市場包含由模擬數據集Tomi進行回調的數據，該數據涉及將物理對象移動到不同的位置，這是對思維理論的經典測試。這些社交互動再次被GPT-4修飾和擴展。

對於每次社會互動，我們提出了旨在探討社會理解以下方面的各種問題。

？心理理論：評估對他人心理狀態和觀點的理解的問題。
？社會規範：旨在辨別情況下社會價值觀和規範的問題。
？情感識別：旨在識別和理解上下文中情感元素的問題。
？‍？社會關係：關注人際關係和關係的疑問。
？反事實問題：旨在探索替代結果或可能性的假設查詢。
社會建議：提出與給定情況相關的建議或行動建議的問題。

question_nonverbal_yes_v0.1.json總共包含770個樣本。此JSON行文件是字典列表，每個字典都包含以下字段：

question_id ：INT，問題的獨特ID。
text ：STR，社交互動上下文和問題。
answer ：STR，GPT-4答案已由人類進一步驗證。
source ：Str，這是三個數據來源之一： gpt-4 ， movie ， tomi 。
category ：STR，六個問題類別之一： ToM ， Social Norm ， Emotion Recognition ， Social Relation ， Counterfactual ， Social Advice 。

question_nonverbal_no_v0.1.json包含相同的社交互動和問題，但是卻帶有括號中的非語言提示（例如，緊張地喝咖啡等）從上下文中刪除。

評估

先決條件

pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >

生成模型答案

 # Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8

# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl

# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl

# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl

# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl

運行評估

我們的評估基於羊駝毛。

 # Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json

alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True

執照

該項目是一個早期的研究展示，僅專為非商業目的而設計。它遵守OpenAI的數據使用條款以及ShareGPT的隱私慣例。如果您發現任何潛在的違規行為，請告訴我們。該軟件的代碼可在Apache許可證2.0下獲得。

致謝

我們要感謝UW的Yejin Choi，CMU的Louis-Philippe Morency，Meta的Jason Weston和Stanford的Diyi Yang的啟發性對話和建設性投入。 Kokomind的理論基礎是基於Liang的博士研究，該博士學位與北京大學，Tsinghua大學和北京通用人工智能研究所（BIGAI）和UCLA的Ying Nian Wu的Song-Chun Zhu基礎。

引用

如果您覺得有用，請引用我們的工作。

 @misc { Shi_KokoMind_Can_Large_2023 ,
  author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
  title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
  month = jul,
  year = { 2023 } ,
  url = { https://chats-lab.github.io/KokoMind/ }
}

展開

附加信息

版本 KokoMind 0.1 Release
類型其他源碼
更新時間 2025-02-26
大小 52.7MB
來自於 Github

相關應用

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
Sunamu

其他源碼

Release 2.2.0
MySchedule.py

其他源碼

Updates to the fetching of week codes
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部