素晴らしい熟考的なプロンプト
大規模言語モデル (LLM) に信頼できる推論を生成し、理性に応じた意思決定を行うように依頼する方法。
ご検討、n.
何かについて注意深く考える行為、特に。決定に達するために。慎重な検討。これの行為または事例。 (OED)
コンテンツ
- 成功事例
- 促すパターンと戦略
- 「一歩一歩考えてみよう」のその先へ
- マルチエージェントによる審議
- 内省とメタ認知
- テキスト生成テクニック
- 自己修正
- 推論分析
- 制限、失敗、パズル
- データセット
- ツールとフレームワーク
- その他のリソース
成功事例
熟考による促しの有効性を示す顕著な証拠。
- ?オリジナルの「Chain of Though」(CoT)論文では、熟議的な促しが機能するという明確な証拠を初めて示しています。 「思考連鎖プロンプトは、大規模な言語モデルで推論を引き出します。」 2022年1月28日。 [>紙]
- ?熟議的なプロンプトは、目に見えない困難な問題を解決する Google の LLM の能力を向上させ、命令微調整 (Flan-) モデルはその点ではるかに優れています。
- 「スケーリング命令 - 微調整された言語モデル」 2022年12月6日。 [>紙]
- 「PaLM 2 テクニカルレポート」 2023年5月17日。 [>紙]
- ?熟議的なプロンプトは OpenAI のモデル (Text-Davinci-003、ChatGPT、GPT-4) に対して非常に効果的であり、EvalAGI ベンチマークの多くの (すべてではない) 推論タスクの精度が向上します。 「AGIEval: 基礎モデルを評価するための人間中心のベンチマーク」 2023年4月13日。 [>紙]
- ?熟議的なプロンプトは潜在的な認知スキルを解き放ち、大規模なモデルほど効果的です。 「BIGベンチの課題への挑戦と、思考の連鎖で課題を解決できるかどうか。」 2022年10月17日。 [>紙]
- ? CoT 推論トレースに実験的にエラーを導入すると、決定精度が低下します。これは、LLM の推論応答性の間接的な証拠となります。 「大規模な言語モデルを促す思考連鎖のストレス テスト」。 2023年9月28日。 [>紙]
- ? (検索候補に関する) 推論により RAG が向上します。 「Self-RAG: 内省を通じて検索、生成、批評することを学ぶ。」 2023年10月17日。 [>紙]
- ?熟考した読書メモにより RAG が向上します。 「チェーン・オブ・ノート: 検索拡張言語モデルの堅牢性の強化」。 2023年11月15日。 [>紙]
- ?優れた推論 (CoT) は優れた答えをもたらします (つまり、LLM は理由に反応します)。 「算術文章題における思考連鎖推論のための因果抽象化」 2023年12月7日。 [>紙]
- ?推論タスクの内部層ごとの処理を論理的に解釈すると、理性反応性のさらなる証拠が得られます。 「言語モデルの多段階推論能力の機械的解釈に向けて」 2023年12月7日。 [>紙]
- ?代替案に関する推論により、テキスト生成が向上します。 「自己評価は大規模な言語モデルでの選択的生成を改善します。」 2023年12月14日。 [>紙]
- ?慎重に取得された多様な推論のデモンストレーションを含む CoT は、マルチモーダル LLM を強化します。 「大規模言語モデルに対する検索拡張マルチモーダル思考連鎖推論」 2023年12月4日。 [>紙]
- ?視覚的な質問応答のための効果的なマルチホップ CoT。 「II-MMR: 視覚的な質問応答におけるマルチモーダル マルチホップ推論の特定と改善」 2024年2月16日。 [>紙]
- ? ? 合成 CoT トレースの DPO は、小さな LLM の理由応答性を高めます。 「推論を重要にする: 思考連鎖推論の忠実性の測定と改善」 2024-02-23。 [>紙] [>コード]
促すパターンと戦略
LLM に意図的な戦略とパターンを促す。
「一歩一歩考えてみよう」のその先へ
LLM に (特定の方法で) 推論するように指示します。
- ? GPT-4 に正しい答えと間違った答えを提供するように依頼すると、精度が向上します。 「大規模な言語モデルは対照的な推論者です。」 2024年3月13日。 [>紙]
- ?ガイド付きの動的プロンプトにより、GPT-4 CoT パフォーマンスが最大 30 パーセント向上します。 「構造ガイド付きプロンプト: テキストのグラフ構造を探索することによるマルチステップ推論における大規模言語モデルの指示」 2024-02-20。 [>紙]
- ? LLM に推論戦略を選択させて組み合わせさせると、コスト効率が高く、パフォーマンスが向上します。 「自己発見: 大規模な言語モデルが推論構造を自己構成する。」 2024年2月6日。 [>紙]
- ? CoA: 最初に抽象的な推論トレースを作成し、後で (ツールを使用して) 詳細を入力します。 「抽象化連鎖推論による効率的なツールの使用」。 2024 年 1 月 30 日。 [>紙]
- ?検証テストに合格するまで何度も理由を説明します。 「計画、検証、切り替え: 多様な思考による統合推論」 2023年10月23日。 [>紙]
- ?複数の多様な検討を生成し、それらを 1 つの推論パスに統合します。 「もう一度聞いてください: 自己合意は、(ほぼ) すべてのシナリオで言語モデルの推論を改善します。」 2023年11月14日。 [>紙]
- ?タスクの種類、プロンプト設計、および推論の品質指標に関する CoT の調査。 「より良い思考連鎖促進戦略に向けて: 調査」。 2023年10月8日。 [>紙]
- ?問題のより広範なコンテキストについて LLM に質問すると、より適切な答えが得られます。 「一歩下がってください: 大規模な言語モデルでの抽象化による推論の喚起」 2023年10月9日。 [>紙]
- 賛否両論を比較検討する: この普遍的な検討パラダイムは、LLM を使用して実装できます。
- ? 次のことを行う{{guidance}}プログラム: 1. 選択肢を特定する → 2. 賛否両論を生成する → 3. 理由を比較検討する → 4. 決定する。 [>コード]
- ? ? 計画と解決のプロンプト。 「計画と解決のプロンプト: 大規模言語モデルによるゼロショット思考連鎖推論の改善」 2023年5月6日。 [>紙] [>コード]
- ?メモを取ること。 「自己ノートを使って論理的に考えて記憶することを学ぶ。」 2023年5月1日。 [>紙]
- ?意図的に生成することでテキストの品質が向上します。 「熟考してから生成: テキスト生成のための強化されたプロンプト フレームワーク」 2023年5月31日。 [>紙]
- ? LLM が推論と Q/A を自発的にインターリーブするようにします。 「ReAct: 言語モデルにおける推論と行動の相乗効果」 2022年10月6日。 [>紙]
- ? 「分割統治」命令は、標準の CoT を大幅に上回ります。 「最も少ないプロンプトから最も多いプロンプトにより、大規模な言語モデルで複雑な推論が可能になります」 2022-05-21。 [>紙]
マルチエージェントによる審議
1 つ (または多数) の LLM が自由な論争をシミュレートします。
- ? ? 答えを繰り返しレビューして改善する、慎重に選択されたオープン LLM は、GPT4-o よりも優れたパフォーマンスを発揮します。 「エージェントの混合により大規模言語モデルの機能が強化されます。」 2024年6月10日。 [>紙] [>コード]
- ?このレビュー「Are we going MAD? Benchmarking Multi-Agent Debate between Language Models for Medical Q&A」によると、通常、より精巧でコストのかかるマルチエージェント システム設計のほうが効果的です。 2023年11月19日。 [>紙]
- ?体系的なピアレビューは、複数のエージェントによる討論よりもさらに優れています。 「マルチエージェントのピアレビューコラボレーションによる大規模言語モデルでの推論に向けて」。 2023年11月14日。 [>紙]
- ?集団的な批判と考察は、事実による幻覚や毒性を軽減します。 「N-Critics: 批評家のアンサンブルによる大規模言語モデルの自己洗練」 2023年10月28日。 [>紙]
- ? ? 多様な LLM を使用した Delphi プロセスは、単純な議論よりも本質的に価値があります。 「ReConcile: 円卓会議は、多様な LLM 間のコンセンサスを通じて推論を改善します。」 2023年9月22日。 [>紙] [>コード]
- ?マルチエージェントによる議論は認知的多様性を高め、パフォーマンスを向上させます。 「マルチエージェントディベートを通じた大規模言語モデルにおける発散的思考の促進」 2023年5月30日。 [>紙]
- ?討論シミュレーションを通じて群衆効果の知恵を活用します。 「マルチエージェントディベートによる言語モデルの事実性と推論の改善」 2023年5月23日。 [>紙]
- ? ? ソクラティック対話をエミュレートして、複数の AI エージェントと協力して問題を解決します。 「大規模言語モデルにおける自己発見のためのソクラテス的方法」。 2023年5月5日。 [>ブログ] [>コード]
内省とメタ認知
一次熟慮を改善する可能性のある高次の推論戦略。
- ? ? CoT 問題解決から得られる一般的な洞察を追跡すると、将来の精度と効率が向上します。 「思考のバッファー: 大規模な言語モデルを使用した思考拡張推論」。 2024年6月6日。 [>紙] [>コード]
- ? ? 自己評価された難易度に応じてタスクを処理すると、CoT の効率が高まります。 「大規模言語モデル推論のための分割統治」。 2024 年 1 月 10 日。 [>紙] [>コード]
- ? ? タスクを振り返ることで、LLM はより効果的な指示、デモンストレーション、推論トレースを自動生成できます。 「Meta-CoT: 大規模な言語モデルを使用した混合タスク シナリオにおける一般化可能な思考連鎖プロンプト」 2023年10月11日。 [>紙] [>コード]
- ? ? LLM ベースの AI インストラクターは、効果的な一次 CoT 命令を考案します (オープンソース モデルは最大 20% 向上します)。 「エージェントは大規模言語モデルに一般的なゼロショット推論者になるよう指示します。」 2023年10月5日。 [>紙] [>コード]
- ? ? 明確にする→判断する→評価する→確認する→認定するというパラダイム。 「メタ認知プロンプトは大規模な言語モデルの理解を向上させます。」 2023年8月10日。 [>紙] [>コード]
- ? ? この問題の専門家を見つけてシミュレーションする戦略。 「大規模言語モデル向けの迅速なプログラミング: 少数ショットのパラダイムを超えて」。 2021年2月15日。 [>論文] [>lmql]
テキスト生成テクニック
テキスト生成手法。プロンプトのパターンや戦略と組み合わせることができます。
- ?以前の CoT トレースを考慮して推論を反復修正すると、精度が 10 ~ 20% 向上します。 「RAT: 検索拡張思考はロングホライズン世代における文脈認識型推論を引き出す」。 2024年3月8日。 [>紙]
- ?効果的な CoT の数ショット デモを自動生成および選択するためのパイプライン。 「ユニバーサル自己適応プロンプト」。 2023年5月24日。 [>紙]
- ?推論が多いほど (= 推論のトレースが長いほど) 優れています。 「大規模な言語モデルに対する推論ステップの長さの影響」。 2024 年 1 月 10 日。 [>紙]
- ? (それに応じてラベル付けされた) 正しい推論と誤った (少数のショットによる) 推論のデモンストレーションにより、CoT が向上します。 「対照的な思考連鎖の促し」 2023年11月17日。 [>紙]
- ?数回の試行錯誤 (インコンテキスト RL) を通じて、問題解決と熟慮が向上します。 「リフレクション: 言語強化学習を備えた言語エージェント」 2023年3月20日。 [>紙]
- ?推論の生成を制限する外部ガイドにより、選択したタスクの精度が最大 35% 向上します。 「言語モデルを使用した認定推論」。 2023年6月6日。 [>紙]
- ? ? 複雑な複数ステップの推論エピソードを生成するための非常に効果的なビーム検索。 「思考の木: 大規模な言語モデルを使用した意図的な問題解決」。 2023年5月17日。 [>紙] [>コード]
- ? 単純なプロンプトとしての Tree-of-Thoughts の最小限の実装。 [>コード]
- ? Tree-of-Thoughts の実験的な LMQL 実装。 [>コード]
- ? ? LLM は、熟考の促進に使用される多様な推論のデモンストレーションを自動生成します。 「大規模な言語モデルにおける自動思考連鎖プロンプト」。 2022年10月7日。 [>紙] [>コード]
自己修正
LLM が自らの熟考を自己修正できるようにしましょう。
- ?複数の CoT トレース間の一貫性は推論の信頼性の指標であり、自己チェック/集計に利用できます。 「不正解検出を段階的に検証できますか?」 2024年2月16日。 [>紙]
- ?微調整用の標準 CoT トレースに自己修正ステップを追加することで、LLM を本質的なセルフチェッカーに変えます。 「小さな言語モデルは自己修正可能です。」 2024 年 1 月 14 日。 [>紙]
- ?強化されたセルフトレーニングにより、検索拡張マルチホップ Q/A が向上します。 「ReST と ReAct の出会い: マルチステップ推論 LLM エージェントの自己改善」 2023年12月15日。 [>紙]
- ?推論トレースで重要な質問が解決されたかどうかに応じた条件付きの自己修正。 「LLM 洗練の ART: 尋ね、洗練し、信頼する。」 2023年11月14日。 [>紙]
- ?多様なフィードバックを与えられた推論を繰り返し改良することで、精度が最大 10% 向上します (ChatGPT)。 「MAF: 大規模言語モデルにおける推論を改善するための多面フィードバック」 2023年10月19日。 [>紙]
- ?モデルに答えを「レビュー」して「問題を見つける」だけを指示しても、効果的な自己修正にはつながりません。 「大規模な言語モデルはまだ推論を自己修正できません。」 2023年9月25日。 [>紙]
- ? LLM は、草案を改善するために重要な質問を考え出し、それに対処することができます。 「検証の連鎖は大規模な言語モデルにおける幻覚を軽減します。」 2023年9月25日。 [>紙]
- ? LogiCoT: 各 CoT ステップ後のセルフチェックと修正により、(選択したタスクとモデルの) パフォーマンスが向上します。 「ロジックによる大規模言語モデルにおけるゼロショット思考連鎖推論の強化」 2023年9月23日。 [>紙]
- ?不誠実な推論への応用を含む、自己修正 LLM に関する優れたレビュー。 「大規模な言語モデルの自動修正: 多様な自己修正戦略の状況を概観する。」 2023年8月6日。 [>紙]
推論分析
LLM の審議を分析し、推論の質を評価する方法。
- ?? テキストを個々の理由に分解する、包括的な LLM ベースの推論分析。 「DCR-Consistency: 大規模言語モデルの一貫性評価と改善のための分割統治推論」。 2024 年 1 月 4 日。 [>紙] [>コード]
- ??推論検証用の高性能のオープン LLM (T5 ベース)。 「心と機械: 言語モデルによる含意検証の再考」。 2024年2月6日。 [>論文] [>モデル]
- ?? CoT 評価者用のテスト データセット。 「思考の連鎖は最も弱い部分と同じくらい強い:推論の連鎖を検証するためのベンチマーク」 2023年11月23日。 [>論文] [>データセット]
- ?? 最終的な答えを導き出す非公式な証明として推論チェーンを見て評価するためのフレームワーク。 「ReCEval: 正確性と有益性による推論チェーンの評価」 2023年11月23日。 [>紙] [>コード]
- ? GPT-4 は、GPT-3.5 よりも数学的推論が正しいかどうかの予測が 5 倍優れています。 「LLM に推論についての推論を要求する: LLM の認知の深さを明らかにするためのベンチマーク」 2023年12月28日。 [>紙]
- ?最小限の GPT-4 は、推論の質を評価するよう求めます。 「SocREval: 参照不要の推論評価のためのソクラテス手法を使用した大規模言語モデル」 2023年9月29日。 [>紙] [>コード]
- ?? CoT トレース (冗長性、忠実性、一貫性など) を評価するための、セマンティック類似性に基づく自動メトリクス。 「ROSCOE: ステップバイステップの推論をスコアリングするための一連の指標」 2023年9月12日。 [>紙]
制限、失敗、パズル
機能しないもの、または理解が不十分なもの。
- ?構造化された生成には、推論の品質と CoT の有効性を低下させるリスクがあります。 「自由に話させてください?大規模言語モデルのパフォーマンスに対する形式制限の影響に関する研究」 2024年8月5日。 [>紙]
- ?フィラー トークンは、正しい答えを導き出すための健全な推論トレースと同じくらい効果的です。 「ドットバイドットで考えてみよう: Transformer 言語モデルの隠れた計算」 2024年4月24日。 [>紙]
- ?因果関係分析により、LLM は CoT トレースを無視することがありますが、理由の応答性はモデルのサイズとともに増加し、微調整によって形成されることが示されています。 「思考連鎖を持つ LLM は非因果的推論者である」 2024-02-25。 [>紙]
- ?間違った推論は正しい結論につながる可能性があるため、CoT 評価のためのより良い方法が必要です。 「SCORE:自己矛盾推論評価のフレームワーク」 2023年11月16日。 [>紙]
- ? LLM は、人間には理解できない「暗号化された推論」を生成する可能性があり、熟考によるプロンプトから得られる XAI の利益が無効になる可能性があります。 「言語モデルが推論を隠さないようにする。」 2023年10月27日。 [>紙]
- ? LLM は、利用可能な議論 (理由への反応性) に応じて判断し、決定しますが、健全な理由と比較して、誤った理由や欺瞞的な理由により強く影響されます。 「LLM は論理的誤りの影響をどの程度受けやすいでしょうか?」 2023年8月18日。 [>紙]
- ?間違った推論は、正しい推論と同じくらい解答の精度を(ほぼ)向上させます。 「無効な論理、等価利益: 言語モデル プロンプトにおける推論の奇妙さ」 2023年7月20日。 [>紙]
- ?機密性の高いドメインでのゼロショット CoT 推論により、LLM が有害な出力または望ましくない出力を生成する可能性が高まります。 「よく考えたら、段階的に考えるのはやめましょう! ゼロショット推論のバイアスと毒性。」 2023年6月23日。 [>紙]
- ? LLM は間違った答えに対する誤った CoT 理論的根拠を体系的に捏造する可能性があることをニューヨーク大学/人類チームが発見しました。 「言語モデルは常に自分の思っていることを言うわけではない:思考連鎖のプロンプトにおける不誠実な説明」 2023年5月7日。 [>紙]
- ? LLM の実践的な熟慮は堅固ではありませんが、シナリオを言い換えることによって簡単に迷走してしまいます。 「『超人的な』パフォーマンスにもかかわらず、現在のLLMは倫理と安全性に関する決定には適していない」 2022-12-13。 [>紙]
データセット
熟慮促進の例を含むデータセット。モデルのトレーニングや熟慮スキルの評価に役立つ可能性があります。
- LLM によって生成された「推論トレース」で強化された命令に従うデータセット。
- ? ORCA - Microsoft のオリジナルの論文。 「Orca: GPT-4 の複雑な説明痕跡からの漸進的学習」 2023年6月5日。 [>紙]
- ? OpenOrca - ORCA データセットのオープンソース レプリケーション。 [>データセット]
- ? Dolphin - ORCA データセットのオープンソース レプリケーション。 [>データセット]
- ? ORCA 2 - Microsoft によって改良された Orca (メタ推論など)。 「Orca 2: 小さな言語モデルに推論方法を教える」 2023年11月18日。 [>紙]
- ?? CoT コレクション- 1,060 のタスクに対する 184 万の推論トレース。 「CoT コレクション: 思考連鎖の微調整による言語モデルのゼロショット学習とフューショット学習の改善」 [>紙] [>コード]
- ? OASST1 - 長所と短所を生成するための 200 以上の命令が含まれています (nomic.ai のマップによる)。 [>データセット]
- ? LegalBench - LLM における法的推論のベンチマーク [>論文]
- ?? ThoughtSource - 大規模な言語モデルにおける思考連鎖推論に関連するデータとツールのオープン リソース。 [>紙] [>コード]
- ?? CoT 関連のデータセットへの多くのヒントを含むレビュー。 「大規模言語モデルのデータセット: 包括的な調査」 [>論文] [>コード]
- ? Maxime Labonne の LLM データセット リスト [github]
ツールとフレームワーク
熟議的なプロンプトを実装するためのツールとフレームワーク。
- ? LMQL - 言語モデル対話用のプログラミング言語。 [>サイト]
- ? インタラクティブな LMQL プレイグラウンド [>サイト]
- ? 「プロンプトはプログラミングです: 大規模言語モデル用のクエリ言語」 2022年12月12日。 [>紙]
- ? {{guidance}} - 大規模な言語モデルを制御するための言語。 [>コード]
- ? 概要 ~ - ガイド付きテキスト生成のための言語。 [>コード]
- ? DSPy - LLM へのプログラムによるインターフェイス。 [>コード]
- ? llm-reasoners – 高度な大規模言語モデル推論のためのライブラリ。 [>コード]
- ? ThinkGPT - 思考連鎖ワークフローのフレームワークと構成要素。 [>コード]
- ? LangChain - LLM チェーンとエージェントを構築するための Python ライブラリ。 [>コード]
- ? PromptBench - LLMS、特に CoT プロンプトの有効性を評価するための統合ライブラリ。 [>コード]
- ? SymbolicAI - LLM を使用した合成微分可能プログラミングのためのライブラリ。 [>コード]
その他のリソース
さらに素晴らしくて便利な素材。
- Autonomous LLM エージェントの調査(継続的に更新)。 [>サイト]
- ? LLM ダッシュボード- オープン LLM のタスク固有の推論パフォーマンスを調査します [>アプリ]
- DAIR が作成したプロンプトエンジニアリングガイド。 [>サイト]
- ATLAS - 体系的なプロンプトの原則とベンチマーク [>コード]
- Logikon が設定した熟慮促進ガイド。 [>サイト]
- Arguments with Arguments – 議論を評価することが実際に何を意味するかを論じた H. シーゲルによる最近の素晴らしい記事。 [>紙]