Solo Performance Prompting 다운로드 - Solo Performance Prompting 소스 코드 다운로드

Solo Performance Prompting

기타 소스코드

다운로드

SPP(Solo Performance Prompting) 문서 공식 저장소

솔로 연주 유도 그림

소식

5/8/2024 : 인지 시너지의 새로운 특성을 보여주는 그림 6의 GPT-3.5 및 LLama2 추론 코드와 결과를 업데이트합니다.
3/15/2024 : 이 논문은 NAACL2024 본학술대회 논문으로 채택되었습니다!

설정

종속성 설치
```
 pip install -r requirements.txt
```
config_template.sh 에서 OpenAI API 구성을 설정하고 source config_template.sh 실행하여 env 변수를 설정합니다(실험에서는 Azure API를 사용하고 있습니다).

빠른 시작

우리는 세 가지 작업 각각에 대해 실행 스크립트를 제공합니다. 자세한 내용은 ".sh" 스크립트의 설명을 확인하세요.

퀴즈 창의적 글쓰기: bash scripts/trivia_creative_writing.sh
코드명 협업: bash scripts/codenames_collaborative.sh
논리 그리드 퍼즐: bash scripts/logic_grid_puzzle.sh

프롬프트

모든 프롬프트는 prompts/ 폴더에서 찾을 수 있습니다.

데이터 세트

모든 데이터 세트는 data/ 폴더에서 찾을 수 있습니다.

종이 실험 결과

각 작업에 대한 논문의 실험 결과는 logs/ 폴더에서 확인할 수 있습니다. gpt4_w_sys_mes 및 gpt4_wo_sys_mes 에는 본 논문의 표 2에 해당하는 결과가 포함되어 있습니다. 또한 그림 6의 결과에 해당하는 gpt-3.5 및 llama2-13b 결과도 포함합니다. 여기서 시스템 메시지 추가 여부와 같은 하이퍼파라미터는 gpt4 실험에서 가장 우수한 성능을 보이는 선택을 따릅니다.

로그 파일 형식

"test_output_infos" : 각 인스턴스에 대한 평가 지표를 포함합니다(예: # 정답이 언급됨).
``prompt"``: API 호출에 대한 전체 입력 프롬프트입니다. (코드명 작업의 경우 각 인스턴스에 대해 두 개의 API 호출이 있습니다)
"*raw_responses" : 각 API 호출의 원시 응답입니다.
"*parsing_flag" : 원시 응답이 성공적으로 구문 분석되었는지 여부입니다. (코드명 작업의 경우 이 필드는 "parsing_success_flag_spymaster" 및 "parsing_success_flag_guesser"로 구분됩니다.)
"unwrapped_output" : 평가 지표를 계산하는 데 사용될 구문 분석된 출력입니다. (Codenames 작업의 경우 이 필드는 "spymaster_output" 및 "guesser_output"으로 구분됩니다. spymaster의 출력에서 구문 분석되어 Guesser의 입력에 삽입되는 "hint_word"라는 추가 필드가 있습니다. 평가 지표는 " 추측_출력")
"task data" : 현재 작업 인스턴스에 대한 데이터(예: 질문, 답변, 대상 단어 등)
"usage" : 지금까지 소비된 토큰 수와 비용을 기록합니다.
기타 설명이 필요한 구성 필드: "모델", "방법", "온도" 등

인용

이 작업이 흥미롭거나 도움이 된다면 논문을 인용하고 이 저장소에 별표를 표시해 주세요.

 @article{wang2023unleashing,
  title={Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration},
  author={Wang, Zhenhailong and Mao, Shaoguang and Wu, Wenshan and Ge, Tao and Wei, Furu and Ji, Heng},
  journal={arXiv preprint arXiv:2307.05300},
  year={2023}
}