KokoMind Download - KokoMind Quellcode Download

KokoMind

Anderer Quellcode

KokoMind 0.1 Release

Herunterladen

Kokomind

Dies ist das Repo für Kokomind , ein Datensatz mit mehrteiligen sozialen Interaktionen zur Bewertung der sozialen Verständnisfähigkeiten von LLMs. Das Repo enthält:

Die Bewertungsdaten sozialer Interaktionen.
Der Code für die Modellbewertung.
Schauen Sie sich den Blog -Beitrag von Kokomind an, um einige Demos zu sehen.

Logo von Kokomind .

Nachricht

[2023.07.05] Kokomind wird unter https://chats-lab.github.io/kokomind/ veröffentlicht.

Demo

Demo2.mp4

Datensatz

Kokomind enthält 150 komplexe soziale Interaktionen mit mehreren Parteien (50 pro Quelle) mit Free-Text-Fragen und Antworten. Um die Vielfalt und Skalierbarkeit zu gewährleisten und Datenkontamination zu vermeiden, werden alle sozialen Interaktionen, Fragen und Antworten von GPT-4 generiert und später von menschlichen Experten verifiziert. Diese Generationen basieren auf drei verschiedenen Quellen:

? Nur GPT-4: Diese Untergruppe wird ausschließlich durch GPT-4 durch Aufforderung erstellt, ohne auf vorhandene Quellen zu begründen.
? Filmbasiert: Um Datenkontamination zu vermeiden, basiert dieser Teil der Daten auf verschiedenen Szenarien aus Filmen, die nach 2022 veröffentlicht wurden. GPT-4 prägt diese Situationen und behält die Kernessenz bei und fügt ihre eigenen Elemente hinzu.
? Tomi-basiert: Dieses Segment enthält Daten, die durch einen simulierten Datensatz, Tomi, zurückgebunden sind, bei dem physikalische Objekte an verschiedene Orte verschoben werden, einen klassischen Test für die Theorie des Geistes. Diese sozialen Interaktionen werden erneut von GPT-4 verschönert und erweitert.

Für jede soziale Interaktion stellen wir verschiedene Fragen, die die folgenden Aspekte des sozialen Verständnisses untersuchen sollen.

? Theorie des Geistes: Fragen zur Bewertung des Verständnisses der mentalen Zustände und Perspektiven anderer.
? Soziale Norm: Fragen, die darauf abzielen, gesellschaftliche Werte und Normen in den Situationen zu erkennen.
? Emotionserkennung: Fragen, die darauf abzielen, emotionale Elemente im Kontext zu identifizieren und zu verstehen.
?‍?‍? Soziale Beziehung: Abfragen, die sich auf zwischenmenschliche Dynamik und Beziehungen konzentrieren.
? Kontrafaktische Fragen: Hypothetische Abfragen, die zur Erforschung alternativer Ergebnisse oder Möglichkeiten entwickelt wurden.
Soziale Beratung: Fragen, die Ratschläge oder Aktionsempfehlungen auslösen, die für die gegebene Situation relevant sind.

question_nonverbal_yes_v0.1.json enthält insgesamt 770 Proben. Diese JSON -Zeilendatei ist eine Liste von Wörterbüchern, wobei jedes Wörterbuch die folgenden Felder enthält:

question_id : INT, die eindeutige ID der Frage.
text : STR, Kontext und Frage der sozialen Interaktion.
answer : STR, GPT-4-Antwort, die vom Menschen weiter verifiziert wurde.
source : Str, eine der drei Datenquellen: gpt-4 , movie , tomi .
category : STR, eine von sechs Fragenkategorien: ToM , Social Norm , Emotion Recognition , Social Relation , Counterfactual , Social Advice .

question_nonverbal_no_v0.1.json enthält die gleichen sozialen Interaktionen und Fragen, jedoch jedoch mit den nonverbalen Hinweisen in der Klammern (z. B. nervös, kaffee usw.) aus dem Kontext entfernt.

Auswertung

Voraussetzung

pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >

Modellantworten generieren

 # Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8

# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl

# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl

# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl

# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl

Auswertung der Laufzeit

Unsere Bewertung basiert auf Alpaca-Eval.

 # Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json

alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True

Lizenz

Dieses Projekt ist ein Forschungserscheinungsbild im Frühstadium, das ausschließlich für nichtkommerzielle Zwecke entwickelt wurde. Es hält sich an die Datennutzungsbedingungen von Openai und die Datenschutzpraktiken von Sharegpt. Lassen Sie uns wissen, ob Sie potenzielle Verstöße erkennen. Der Code der Software ist unter der Apache -Lizenz 2.0 verfügbar.

Anerkennung

Wir möchten Yejin Choi von UW, Louis-Philippe Morency von CMU, Jason Weston von Meta und Diyi Yang von Stanford für ihre aufschlussreichen Dialoge und konstruktiven Eingaben danken. Die theoretische Stiftung von Kokomind basiert auf Liangs Doktorarbeit mit Song-Chun Zhu von der Peking University, der Tsinghua University und dem Peking Institute for General Artificial Intelligence (Bigai) und Ying Nian Wu von der UCLA.

Zitat

Bitte zitieren Sie unsere Arbeit, wenn Sie sie nützlich finden.

 @misc { Shi_KokoMind_Can_Large_2023 ,
  author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
  title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
  month = jul,
  year = { 2023 } ,
  url = { https://chats-lab.github.io/KokoMind/ }
}