Unduh KokoMind - Unduh Kode Sumber KokoMind

KokoMind

Kode sumber lainnya

KokoMind 0.1 Release

Unduh

Kokomind

Ini adalah repo untuk Kokomind , dataset dengan interaksi sosial multi-partai untuk mengevaluasi kemampuan pemahaman sosial LLMS. Repo berisi:

Data evaluasi interaksi sosial.
Kode evaluasi model.
Lihatlah posting blog Kokomind untuk melihat beberapa demo.

Logo Kokomind .

Berita

[2023.07.05] Kokomind dirilis di https://chats-lab.github.io/kokomind/.

Demo

demo2.mp4

Dataset

Kokomind berisi 150 interaksi sosial multi-partai yang kompleks (50 per sumber) dengan pertanyaan dan jawaban teks bebas. Untuk memastikan keragaman dan skalabilitas dan menghindari kontaminasi data, semua interaksi sosial, pertanyaan, dan jawaban dihasilkan oleh GPT-4 dan diverifikasi oleh para ahli manusia nanti. Generasi ini didasarkan pada tiga sumber yang berbeda:

? GPT-4-ONLY: Subset ini dibuat semata-mata oleh GPT-4 melalui dorongan, tanpa landasan pada sumber yang ada.
? Berbasis Film: Untuk menghindari kontaminasi data, bagian data ini didasarkan pada beragam skenario yang ditarik dari film yang dirilis setelah 2022. GPT-4 membentuk situasi ini, mempertahankan esensi inti sambil menambahkan elemennya sendiri.
? Berbasis Tomi: Segmen ini berisi data yang ditulis dengan dataset yang disimulasikan, Tomi, yang melibatkan memindahkan objek fisik ke tempat yang berbeda, tes klasik untuk teori pikiran. Interaksi sosial ini sekali lagi dihiasi dan diperluas oleh GPT-4.

Untuk setiap interaksi sosial, kami mengajukan berbagai pertanyaan yang dirancang untuk menyelidiki aspek pemahaman sosial berikut.

? Teori Pikiran: Pertanyaan Mengevaluasi Pemahaman tentang Keadaan Mental dan Perspektif Orang Lain.
? Norma Sosial: Pertanyaan yang bertujuan untuk membedakan nilai -nilai dan norma sosial dalam situasi.
? Pengenalan Emosi: Pertanyaan yang ditargetkan untuk mengidentifikasi dan memahami elemen -elemen emosional dalam konteks.
? ‍?‍? Hubungan Sosial: Pertanyaan yang berfokus pada dinamika dan hubungan interpersonal.
? Pertanyaan kontrafaktual: Pertanyaan hipotetis yang dirancang untuk mengeksplorasi hasil atau kemungkinan alternatif.
Nasihat Sosial: Pertanyaan yang menimbulkan saran atau rekomendasi tindakan yang relevan dengan situasi yang diberikan.

question_nonverbal_yes_v0.1.json berisi 770 sampel secara total. File baris JSON ini adalah daftar kamus, dengan masing -masing kamus berisi bidang -bidang berikut:

question_id : Int, ID unik dari pertanyaan tersebut.
text : STR, konteks dan pertanyaan interaksi sosial.
answer : STR, GPT-4 Jawaban yang telah diverifikasi lebih lanjut oleh manusia.
source : STR, salah satu dari tiga sumber data: gpt-4 , movie , tomi .
category : STR, salah satu dari enam kategori pertanyaan: ToM , Social Norm , Emotion Recognition , Social Relation , Counterfactual , Social Advice .

question_nonverbal_no_v0.1.json berisi interaksi dan pertanyaan sosial yang sama tetapi tetapi dengan isyarat non-verbal dalam tanda kurung (misalnya, dengan gugup menyeruput kopi, dll) dihapus dari konteks.

Evaluasi

Prasyarat

pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >

Menghasilkan jawaban model

 # Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8

# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl

# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl

# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl

# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl

Jalankan evaluasi

Evaluasi kami didasarkan pada alpaca-eval.

 # Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json

alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True

Lisensi

Proyek ini adalah showcase penelitian tahap awal, yang dirancang semata-mata untuk tujuan non-komersial. Ini menganut ketentuan penggunaan data OpenAI, dan praktik privasi Sharegpt. Beri tahu kami jika Anda menemukan potensi pelanggaran. Kode perangkat lunak tersedia di bawah Lisensi Apache 2.0.

Pengakuan

Kami ingin mengucapkan terima kasih kepada Yejin Choi dari UW, Louis-Philippe Morency dari CMU, Jason Weston dari Meta, dan Diyi Yang dari Stanford untuk dialog mereka yang mencerahkan dan input konstruktif. Landasan teoritis Kokomind didasarkan pada penelitian PhD Liang dengan lagu-chun Zhu dari Universitas Peking, Universitas Tsinghua dan Institut Beijing untuk Kecerdasan Buatan Umum (Bigai) dan Ying Nian Wu dari UCLA.

Kutipan

Harap kutip pekerjaan kami jika Anda merasa berguna.

 @misc { Shi_KokoMind_Can_Large_2023 ,
  author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
  title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
  month = jul,
  year = { 2023 } ,
  url = { https://chats-lab.github.io/KokoMind/ }
}

Memperluas

Informasi Tambahan

Versi KokoMind 0.1 Release
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-26
ukuran 52.7MB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
Sunamu

Kode sumber lainnya

Release 2.2.0
MySchedule.py

Kode sumber lainnya

Updates to the fetching of week codes
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua