知恵を絞った3人の靴屋が黒幕である諸葛孔明に匹敵します。 ---中国の古いことわざ。
言語モデルの推論能力を向上させる新しいゼロショット プロンプト マジック ワードを紹介します:パネル ディスカッション!
カンファレンスやワークショップでは、専門家間で常に厳しい議論が行われ、人々は特定のトピックについて意見を交換し、新しい概念の理解を深め、考え方の視点を変え、一般的な議論やディスカッションのより包括的な理解に達します。
図1: ジャック・マー氏とイーロン・マスク氏のパネルディスカッション、WAIC、2019年:
このアイデアは自己一貫性の研究に関連しています (Wang、Xuezhi ら) (パネルディスカッション中に複数の専門家が互いに同意しない可能性があるため)。
gpt-3.5-turbo API を使用して、GSM8K データセットに対する提案されたプロンプト手法の有効性を評価します。
1k GSM8k テスト データセットの各プロンプトを評価するコストは 2 米ドル未満です。
当社のパネルディスカッションプロンプトは最高のパフォーマンスを達成しており、アブレーション研究では各要素の利点の重要性が示されています。セカンドベスト、および3 番目のベストは、それぞれ下線と斜体で示されます。
メソッドデータセット | GSM8K (テスト1k) | プロンプトコンテンツ | 参照 |
---|---|---|---|
プロンプトなし | 0.789 | 答えは次のとおりです。 | - |
ゼロショットCoT | 0.854 | 段階的に考えてみましょう。 | (小島武志ほか 2022) |
APE の改善された CoT | 0.845 | 正しい答えが得られることを確認するために、段階的に解決してみましょう。 | (周、永潮ら、2023) |
ToT プロンプト | 0.842 | 3 人の異なる専門家がこの質問に答えていると想像してください。専門家全員が自分の考えを 1 ステップ書き留めて、グループで共有します。その後、すべての専門家が次のステップに進みます。いずれかの時点で専門家が自分が間違っていることに気づいた場合、彼らは去ります。 | (デイブ・ハルバートのレポート 2023) |
パネルGPT | 0.899 | 3 人の専門家がパネルディスカッションでこの質問について話し合い、段階的に解決し、結果が正しいことを確認してペナルティを回避しようとしています。 | (本レポート、2023 年 7 月 18 日) |
AEおよびEAなしのPanelGPT | 0.878 | 3 人の専門家がこの質問について話し合い、段階的に解決し、結果が正しいことを確認しています。 | (私たちのアブレーション研究) |
AEなしのPanelGPT | 0.84 | 3 人の専門家がこの質問について話し合い、段階的に解決し、結果が正しいことを確認してペナルティを回避しようとしています。 | (私たちのアブレーション研究) |
EAなしのPanelGPT | 0.894 | 3 人の専門家がパネル ディスカッションでこの質問について話し合い、段階的に解決しようとしており、結果が正しいことを確認しています。 | (私たちのアブレーション研究) |
P e nあるlGPT (スペルミス) | 0.883 | 3 人の専門家がこの問題について罰則討論で議論し、段階的に解決しようとしており、結果が正しいことを確認しています。 | (私たちのアブレーション研究) |
ゼロショット プロンプトの機能は、GPT-3 や GPT-4 などの大量のデータでトレーニングされた言語モデルで現れます (Ouyang et al., 2022; OpenAI, 2023)。そしてそれはWeiらによって示されました。 (2021) 命令の微調整により、言語モデルのゼロショット学習能力が向上すると述べています。
大規模な言語モデルが示す優れたゼロショット パフォーマンスにもかかわらず、これらのモデルは、ゼロショット設定でより複雑なタスクを実行する場合には最適以下のパフォーマンスを示すことがよくあります。少数ショットのプロンプトを活用することは、コンテキスト内学習を促進するための実行可能なアプローチを提示します (Brown et al., 2020; Min et al., 2022)。この手法では、プロンプト内にデモンストレーションを含める必要があり、モデルを効果的にパフォーマンスの向上に導きます。これらのデモンストレーションは、後続の例の条件付けメカニズムとして機能し、モデルがより良い応答を生成するように導きます。
複雑な算術タスク、常識的タスク、記号推論タスクなどの一部のより困難なタスクでは、言語モデルが正しい答えを得るのに役立つ思考連鎖 (CoT) プロンプトがより効果的であることが示されています (Wei et al., 2022)。 CoT には、数ショット プロンプトの例に追加の推論ステップが含まれています。小島ら。 (2022) はさらにゼロショット CoT を導入し、タスクに依存しない命令を追加することで特定のタスクにおけるモデルのパフォーマンスを向上できることを示しています。 Zhang et al. (2022b)、Auto-CoT は、ゼロショット CoT の普遍性とデモンストレーションによって駆動されるオリジナル CoT の機能を組み合わせ、CoT 推論に有益なクラスタリングとダイバーシティベースのサンプリングに基づいてデモンストレーションを自動的に構築することを提案しています。
王ら。 (2022) 複数の多様な推論パスをサンプリングし、それらのパスを周辺化して、サンプリングされたすべての推論パスの中から最も一貫した答えを選択することにより、少数ショット CoT 法を改善しました。 Liu らを促す生成された知識(2021) は、より正確な予測を行うために質問に関連する知識や情報を組み込むことで常識的な推論を改善します。思考ツリー (ToT) 手法 (Long, 2023; Yao et al., 2023) は、ツリーベースの計画手法と言語モデルの推論スキルを組み合わせ、複数のラウンドでの会話を通じて難しい推論問題を段階的に解決します。 Hulbert (2023) は、単一のプロンプトで言語モデルの複数の考えを活用する関連するアイデアも提案しました。記憶と検索拡張生成 (RAG) (Lewis et al., 2020)。知識集約型タスクを完了する際に、Wikipedia のようにパラメトリック記憶とノンパラメトリック記憶を組み合わせることができます。 MoT (Li & Qiu、2023): ラベルのない外部データセットに基づいて事前に考え、推論中に関連する知識を思い出します。
Prompt-OIRL では、オフライン逆強化学習を使用してオフライン プロンプト評価と最適化を実行するというアイデアが導入されています。この方法は効率的かつ効果的です。 M2 チップ MacBook Air での Prompt-OIRL のトレーニングには 1 時間しかかかりませんが、算術推論タスクにおけるさまざまな LLM のパフォーマンスは最大 24% 向上します。
私たちのコードとプロンプトを使用する場合は、私たちの論文を引用することを検討してください。
@inproceedings{sun2023query, title={オフライン逆 RL によるクエリ依存のプロンプト評価と最適化}、著者={Sun、Hao、H{"u}y{"u}k、Alihan、van der Schaar、Mihaela}、booktitle ={第 12 回学習表現に関する国際会議}, year={2023}}@article{sun2023reinforcement, title={LLM 時代の強化学習: 必須とは何ですか?何が必要なのでしょうか? RLHF、プロンプティング、そしてその先に関する RL の視点}、著者={Sun, Hao}、ジャーナル={arXiv preprint arXiv:2310.06147}、年={2023}}