KokoMind 다운로드 KokoMind 소스 코드 다운로드

KokoMind

기타 소스코드

KokoMind 0.1 Release

다운로드

코코 린드

이것은 LLMS의 사회적 이해 능력을 평가하기위한 다수의 사회적 상호 작용이있는 데이터 세트 인 Kokomind 의 리포입니다. repo에는 다음이 포함됩니다.

사회적 상호 작용의 평가 데이터.
모델 평가 코드.
데모를 보려면 Kokomind의 블로그 게시물을 확인하십시오.

Kokomind 의 로고.

소식

[2023.07.05] Kokomind는 https://chats-lab.github.io/kokomind/에서 출시됩니다.

데모

demo2.mp4

데이터 세트

Kokomind에는 자유 텍스트 질문과 답변이있는 150 개의 복잡한 다수의 사회적 상호 작용 (소스 당 50 개)이 포함되어 있습니다. 다양성과 확장 성을 보장하고 데이터 오염을 피하기 위해 모든 사회적 상호 작용, 질문 및 답변은 GPT-4에 의해 생성되며 나중에 인간 전문가가 확인합니다. 이 세대는 세 가지 다른 출처를 기반으로합니다.

? GPT-4 전용 :이 서브 세트는 기존 소스를 접지하지 않고 GPT-4를 통해 프롬프트를 통해 만 생성됩니다.
? 영화 기반 : 데이터 오염을 피하기 위해,이 데이터 의이 부분은 2022 년 이후에 출시 된 영화에서 가져온 다양한 시나리오에 근거합니다. GPT-4는 이러한 상황을 형성하여 자체 요소를 추가하면서 핵심 본질을 유지합니다.
? TOMI 기반 :이 세그먼트에는 시뮬레이션 된 데이터 세트 인 Tomi가 백본으로 인한 데이터가 포함되어 있으며, 여기에는 물리적 객체를 다른 장소로 옮기는 것, 마음의 이론을위한 고전적인 테스트입니다. 이러한 사회적 상호 작용은 GPT-4에 의해 다시 장식되고 확장된다.

각 사회적 상호 작용에 대해, 우리는 사회적 이해의 다음 측면을 조사하기 위해 고안된 다양한 질문을합니다.

? 마음의 이론 : 다른 사람들의 정신 상태와 관점에 대한 이해를 평가하는 질문.
? 사회적 규범 : 상황 내에서 사회적 가치와 규범을 식별하는 것을 목표로하는 질문.
? 감정 인식 : 상황 내에서 감정적 요소를 식별하고 이해하는 데 목표를 세우는 질문.
? ‍? ‍? 사회적 관계 : 대인 관계 및 관계에 중점을 둔 쿼리.
? 반 사실 질문 : 대체 결과 또는 가능성을 탐색하도록 설계된 가상 쿼리.
사회적 조언 : 주어진 상황과 관련된 조언 또는 행동 권장 사항을 유발하는 질문.

question_nonverbal_yes_v0.1.json 에는 총 770 개의 샘플이 포함되어 있습니다. 이 JSON 라인 파일은 사전 목록이며 각 사전에는 다음 필드가 포함되어 있습니다.

question_id : int, 질문의 고유 한 ID.
text : STR, 사회적 상호 작용 맥락과 질문.
answer : STR, GPT-4 인간에 의해 추가로 확인 된 답변.
source : STR, 세 가지 데이터 소스 중 하나 인 gpt-4 , movie , tomi .
category : STR, 6 가지 질문 범주 중 하나 : ToM , Social Norm , Emotion Recognition , Social Relation , Counterfactual , Social Advice .

question_nonverbal_no_v0.1.json 동일한 사회적 상호 작용과 질문을 포함하지만 괄호 안의 비언어적 신호 (예 : 긴장된 커피 등)가 문맥에서 제거되었습니다.

평가

전제 조건

pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >

모델 답변을 생성합니다

 # Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8

# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl

# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl

# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl

# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl

평가 평가

우리의 평가는 Alpaca-Eval을 기반으로합니다.

 # Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json

alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True

특허

이 프로젝트는 비상업적 목적으로 만 설계된 초기 연구 쇼케이스입니다. OpenAI의 데이터 사용 약관과 ShareGpt의 개인 정보 보호 관행을 준수합니다. 잠재적 인 위반을 발견하면 알려주십시오. 소프트웨어 코드는 Apache License 2.0에 따라 사용할 수 있습니다.

승인

우리는 UW의 Yejin Choi, CMU의 Louis-Philippe Morency, Meta의 Jason Weston 및 Stanford의 Diyi Yang에게 감사의 말을 전합니다. Kokomind의 이론적 재단은 Peking University, Tsinghua University 및 Beijing General 인공 지능 연구소 (BIGAI) 및 UCLA의 Beijing Institute와의 Song-Chun Zhu와의 Liang의 박사 연구를 기반으로합니다.

소환

유용하다고 생각되면 우리의 일을 인용하십시오.

 @misc { Shi_KokoMind_Can_Large_2023 ,
  author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
  title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
  month = jul,
  year = { 2023 } ,
  url = { https://chats-lab.github.io/KokoMind/ }
}