Solo Performance Promptingのダウンロード - Solo Performance Promptingソースコードのダウンロード

Solo Performance Prompting

その他のソースコード

ダウンロード

Solo Performance Prompting (SPP) 論文の公式リポジトリ

ソロパフォーマンスのプロンプトのイラスト

ニュース

5/8/2024 : GPT-3.5 および LLama2 推論コードと図 6 の結果を更新。認知相乗効果の創発的な性質を示します。
3/15/2024 : この論文は NAACL2024 の主要会議論文として採択されました。

設定

依存関係をインストールする
```
 pip install -r requirements.txt
```
config_template.shで OpenAI API 構成をセットアップし、 source config_template.shを実行して環境変数をセットアップします (実験では Azure API を使用していることに注意してください)

クイックスタート

3 つのタスクごとに実行スクリプトが提供されています。詳細については、「.sh」スクリプト内のコメントを確認してください。

トリビアクリエイティブライティング: bash scripts/trivia_creative_writing.sh
コードネーム Collaborative: bash scripts/codenames_collaborative.sh
ロジックグリッドパズル: bash scripts/logic_grid_puzzle.sh

プロンプト

すべてのプロンプトは、 prompts/フォルダーにあります。

データセット

すべてのデータセットはdata/フォルダーにあります。

紙の実験結果

各タスクの論文の実験結果は、 logs/フォルダーにあります。 gpt4_w_sys_mesおよびgpt4_wo_sys_mesには、論文の表 2 に対応する結果が含まれています。図 6 の結果に対応する gpt-3.5 および llama2-13b の結果も含まれています。ここでは、システムメッセージを追加するかどうかなどのハイパーパラメーターが、gpt4 実験で最もパフォーマンスの高い選択肢に従います。

ログファイル形式

"test_output_infos" : 各インスタンスの評価メトリクス (例: # 件の正解の記載) が含まれます。
`"prompt"``: API 呼び出しの完全な入力プロンプト。 (コード名タスクの場合、インスタンスごとに 2 つの API 呼び出しがあります)
"*raw_responses" : 各 API 呼び出しからの生の応答。
"*parsing_flag" : 生の応答が正常に解析されたかどうか。 (コード名タスクの場合、このフィールドは「parsing_success_flag_spymaster」と「parsing_success_flag_guesser」に分かれています)
"unwrapped_output" : 評価メトリクスの計算に使用される解析された出力。 (コード名タスクの場合、このフィールドは「spymaster_output」と「guesser_output」に分離されます。「hint_word」という名前の追加フィールドがあり、これはスパイマスターの出力から解析され、ゲッサーの入力に挿入されます。評価指標は「」に基づいて計算されます。推測_出力")
"task data" : 現在のタスクインスタンスのデータ (例: 質問、回答、ターゲットワードなど)。
"usage" : これまでに費やされたトークンの数とコストを記録します。
その他の自明の構成フィールド: 「モデル」、「メソッド」、「温度」など。

引用

この研究が興味深い/役立つと思われる場合は、論文を引用し、このリポジトリにスターを付けてください。

 @article{wang2023unleashing,
  title={Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration},
  author={Wang, Zhenhailong and Mao, Shaoguang and Wu, Wenshan and Ge, Tao and Wei, Furu and Ji, Heng},
  journal={arXiv preprint arXiv:2307.05300},
  year={2023}
}