KokoMind Download - KokoMind Source Code Download

KokoMind

شفرة المصدر الأخرى

KokoMind 0.1 Release

تنزيل

Kokomind

هذا هو repo لـ Kokomind ، وهي مجموعة بيانات ذات تفاعلات اجتماعية متعددة الأحزاب لتقييم قدرات الفهم الاجتماعي لـ LLMS. الريبو يحتوي على:

بيانات التقييم للتفاعلات الاجتماعية.
رمز تقييم النموذج.
تحقق من منشور مدونة Kokomind لمشاهدة بعض العروض التجريبية.

شعار Kokomind .

أخبار

[2023.07.05] يتم إصدار Kokomind على https://chats-lab.github.io/kokomind/.

العرض التوضيحي

Demo2.mp4

مجموعة البيانات

يحتوي Kokomind على 150 تفاعلات اجتماعية متعددة الأحزاب (50 لكل مصدر) مع أسئلة وإجابات النص المجاني. لضمان التنوع وقابلية التوسع وتجنب تلوث البيانات ، يتم إنشاء جميع التفاعلات الاجتماعية والأسئلة والإجابات بواسطة GPT-4 والتحقق منها من قبل الخبراء البشريين في وقت لاحق. تعتمد هذه الأجيال على ثلاثة مصادر مختلفة:

؟ GPT-4 فقط: يتم إنشاء هذه المجموعة الفرعية فقط بواسطة GPT-4 من خلال المطالبة ، دون التأريض على المصادر الموجودة.
؟ القائم على الفيلم: لتجنب تلوث البيانات ، يرتكز هذا الجزء من البيانات على سيناريوهات متنوعة يتم سحبها من الأفلام التي تم إصدارها بعد عام 2022. GPT-4 يشكل هذه المواقف ، مع الحفاظ على الجوهر الأساسي مع إضافة عناصرها الخاصة.
؟ تعتمد على TOMI: يحتوي هذا القطاع على البيانات الخلفية بواسطة مجموعة بيانات محاكاة ، TOMI ، والتي تتضمن نقل الأشياء المادية إلى أماكن مختلفة ، وهو اختبار كلاسيكي لنظرية العقل. يتم تزيين هذه التفاعلات الاجتماعية مرة أخرى وتوسيعها بواسطة GPT-4.

لكل تفاعل اجتماعي ، نطرح أسئلة مختلفة مصممة للتحقيق في الجوانب التالية من الفهم الاجتماعي.

؟ نظرية العقل: أسئلة تقييم فهم الحالات الذهنية للآخرين ووجهات النظر.
؟ المعيار الاجتماعي: أسئلة تهدف إلى تمييز القيم والمعايير المجتمعية داخل المواقف.
؟ التعرف على العاطفة: أسئلة تستهدف تحديد وفهم العناصر العاطفية في السياق.
؟ العلاقة الاجتماعية: الاستعلامات التي تركز على ديناميات وعلاقات بين الأشخاص.
؟ الأسئلة المضادة للضرب: الاستعلامات الافتراضية المصممة لاستكشاف نتائج أو إمكانيات بديلة.
المشورة الاجتماعية: أسئلة تثير المشورة أو توصيات العمل ذات الصلة بالموقف المعطى.

question_nonverbal_yes_v0.1.json يحتوي على 770 عينة في المجموع. ملف JSON Lines هذا هو قائمة القواميس ، مع كل قاموس يحتوي على الحقول التالية:

question_id : int ، المعرف الفريد للسؤال.
text : STR ، سياق التفاعل الاجتماعي والسؤال.
answer : STR ، GPT-4 الإجابة التي تم التحقق منها من قبل الإنسان.
source : STR ، أحد مصادر البيانات الثلاثة: gpt-4 ، movie ، tomi .
category : STR ، واحدة من ستة فئات أسئلة: ToM ، Social Norm ، Emotion Recognition ، Social Relation ، المشورة Counterfactual ، Social Advice .

question_nonverbal_no_v0.1.json يحتوي على نفس التفاعلات والأسئلة الاجتماعية ولكن مع الإشارات غير اللفظية في قوسين (على سبيل المثال ، تحتسي القهوة بعصبية ، إلخ) من السياق.

تقييم

متطلب مسبق

pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >

توليد إجابات نموذجية

 # Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8

# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl

# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl

# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl

# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl

تقييم التقييم

يعتمد تقييمنا على الألبكة-eval.

 # Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json

alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True

رخصة

هذا المشروع عبارة عن عرض أبحاث في مرحلة مبكرة ، مصمم فقط لأغراض غير تجارية. يلتزم بمصطلحات استخدام البيانات الخاصة بـ Openai ، وممارسات الخصوصية الخاصة بمشاركة. أخبرنا إذا اكتشفت أي انتهاكات محتملة. رمز البرنامج متاح ضمن ترخيص Apache 2.0.

شكر وتقدير

نود أن نشكر Yejin Choi من UW و Louis-Philippe Morency من CMU و Jason Weston من Meta و Diyi Yang من Stanford على حواراتهم المفيدة والمدخلات البناءة. يعتمد الأساس النظري لـ Kokomind على بحث الدكتوراه في Liang مع Song-Chun Zhu من جامعة بكين ، وجامعة Tsinghua ومعهد بكين للذكاء الاصطناعي العام (Bigai) ويينغ نيان وو من جامعة كاليفورنيا في لوس أنجلوس.

اقتباس

يرجى الاستشهاد بعملنا إذا وجدت أنه مفيد.

 @misc { Shi_KokoMind_Can_Large_2023 ,
  author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
  title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
  month = jul,
  year = { 2023 } ,
  url = { https://chats-lab.github.io/KokoMind/ }
}

يوسع

معلومات إضافية

الإصدار KokoMind 0.1 Release
النوع شفرة المصدر الأخرى
وقت التحديث 2025-02-26
الحجم 52.7MB
من Github

تطبيقات ذات صلة

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
MySchedule.py

شفرة المصدر الأخرى

Updates to the fetching of week codes
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل