굉장한 심의적 촉구
신뢰할 수 있는 추론을 생성하고 이유에 맞는 결정을 내리도록 LLM(대형 언어 모델)에 요청하는 방법.
심의 , 명.
무엇인가에 대해 신중하게 생각하는 행동, 특히. 결정을 내리기 위해; 신중한 고려; 이에 대한 행위 또는 사례. (OED)
내용물
- 성공 사례
- 프롬프트 패턴 및 전략
- "단계적으로 생각해보자"를 넘어
- 다중 대리인 심의
- 성찰과 메타인지
- 텍스트 생성 기술
- 자기 교정
- 추론 분석
- 한계, 실패, 퍼즐
- 데이터세트
- 도구 및 프레임워크
- 기타 리소스
성공 사례
심의 촉구의 효과에 대한 놀라운 증거.
- ? 최초의 "생각의 사슬"(CoT) 논문은 심의 유도가 효과가 있다는 명확한 증거를 제공합니다. "생각의 연쇄 유도는 대규모 언어 모델에서 추론을 이끌어냅니다." 2022-01-28. [>종이]
- ? 숙고적인 메시지는 보이지 않는 어려운 문제를 해결하는 Google LLM의 능력을 향상시키며, 지침 미세 조정(Flan-) 모델이 훨씬 더 뛰어납니다.
- “스케일링 명령어 - 미세 조정된 언어 모델.” 2022-12-06. [>종이]
- "PaLM 2 기술 보고서." 2023-05-17. [>종이]
- ? 심의 프롬프트는 OpenAI의 모델(Text-Davinci-003, ChatGPT, GPT-4)에 매우 효과적이며 EvalAGI 벤치마크의 많은(전부는 아니지만) 추론 작업의 정확성을 높입니다. "AGIEval: 기초 모델 평가를 위한 인간 중심 벤치마크." 2023-04-13. [>종이]
- ? 심의 프롬프트는 잠재된 인지 능력을 잠금 해제하고 더 큰 모델에 더 효과적입니다. "BIG-Bench 작업에 도전하고 일련의 사고방식으로 이를 해결할 수 있는지 여부." 2022-10-17. [>종이]
- ? CoT 추론 추적에 실험적으로 오류를 도입하면 결정 정확도가 떨어지며 이는 LLM의 이유 반응성에 대한 간접적인 증거를 제공합니다. "대규모 언어 모델에 대한 스트레스 테스트 사고 사슬 유도." 2023-09-28. [>종이]
- ? 추론(검색 후보에 대한)은 RAG를 향상시킵니다. "Self-RAG: 자기 성찰을 통해 검색, 생성 및 비판 학습." 2023-10-17. [>종이]
- ? 신중한 독서 노트는 RAG를 향상시킵니다. "Chain-of-Note: 검색 증강 언어 모델의 견고성 강화." 2023-11-15. [>종이]
- ? 좋은 추론(CoT)은 좋은 답변을 제공합니다(즉, LLM은 이유에 반응합니다). “산술 단어 문제에서 사고 연쇄 추론을 위한 인과 추상화.” 2023-12-07. [>종이]
- ? 추론 작업의 내부 계층별 처리에 대한 논리적 해석은 이성 반응성에 대한 추가 증거를 생성합니다. "언어 모델의 다단계 추론 능력에 대한 기계적인 해석을 향하여." 2023-12-07. [>종이]
- ? 대체 초안을 추론하면 텍스트 생성이 향상됩니다. "자체 평가는 대규모 언어 모델의 선택 생성을 향상시킵니다." 2023-12-14. [>종이]
- ? 신중하게 검색된 다양한 추론 데모를 갖춘 CoT는 다중 모드 LLM을 향상시킵니다. "대규모 언어 모델에 대한 검색 강화 다중 모드 사고 연쇄 추론." 2023-12-04. [>종이]
- ? 시각적 질문 응답을 위한 효과적인 멀티홉 CoT. "II-MMR: 시각적 질문 응답에서 다중 모드 다중 홉 추론 식별 및 개선." 2024-02-16. [>종이]
- ? ? 합성 CoT 추적의 DPO는 소규모 LLM의 이성 반응성을 높입니다. "추론을 중요하게 만들기: 사고 사슬 추론의 충실도 측정 및 개선" 2024-02-23. [>종이] [>코드]
프롬프트 패턴 및 전략
LLM을 신중하게 만들기 위한 전략과 패턴을 제시합니다.
"단계적으로 생각해보자"를 넘어
LLM에게 (특정 방식으로) 추론하도록 지시합니다.
- ? GPT-4에 정답과 오답을 제공하도록 요청하면 정확성이 높아집니다. "대규모 언어 모델은 대조 추론자입니다." 2024-03-13. [>종이]
- ? 안내식 동적 프롬프트는 GPT-4 CoT 성능을 최대 30% 포인트까지 향상시킵니다. "구조 안내 프롬프트: 텍스트의 그래프 구조를 탐색하여 다단계 추론에서 대규모 언어 모델 지시" 2024-02-20. [>종이]
- ? LLM이 추론 전략을 선택하고 결합하도록 하면 비용 효율적이고 성능이 향상됩니다. "SELF-DISCOVER: 대규모 언어 모델 자체 작성 추론 구조." 2024-02-06. [>종이]
- ? CoA: 먼저 추상적인 추론 추적을 생성하고 나중에 도구를 사용하여 세부 사항을 입력합니다. "추상화 연쇄 추론을 통한 효율적인 도구 사용." 2024-01-30. [>종이]
- ? 검증 테스트가 통과될 때까지 계속해서 이유를 설명합니다. "계획, 확인 및 전환: 다양한 X-of-Thoughts를 통한 통합 추론." 2023-10-23. [>종이]
- ? 여러 가지 다양한 숙고를 생성한 다음 단일 추론 경로에서 이를 종합합니다. "한 번 더 물어보세요: 자기 합의는 (거의) 모든 시나리오에서 언어 모델의 추론을 향상시킵니다." 2023-11-14. [>종이]
- ? 작업 유형, 프롬프트 디자인 및 추론 품질 지표에 관한 CoT 설문조사입니다. "더 나은 사고 사슬 촉진 전략을 향하여: 설문 조사." 2023-10-08. [>종이]
- ? 문제의 더 넓은 맥락에 대해 LLM에게 질문하면 더 나은 답변을 얻을 수 있습니다. "한발 뒤로 물러서십시오: 대규모 언어 모델의 추상화를 통해 추론 불러오기." 2023-10-09. [>종이]
- 장점과 단점 평가: 이 보편적 심의 패러다임은 LLM을 통해 구현될 수 있습니다.
- ? 다음을 수행하는 {{안내}} 프로그램: 1. 옵션 식별 → 2. 장단점 생성 → 3. 이유 평가 → 4. 결정. [>코드]
- ? ? 계획 및 해결 프롬프트. "계획 및 해결 프롬프트: 대규모 언어 모델을 통한 제로샷 사고 연쇄 추론 개선." 2023-05-06. [>종이] [>코드]
- ? 메모 작성. "셀프 노트를 통해 추론하고 암기하는 법을 배우세요." 2023-05-01. [>종이]
- ? 의도한 후 생성하면 텍스트 품질이 향상됩니다. "신고한 후 생성: 텍스트 생성을 위한 향상된 프롬프트 프레임워크." 2023-05-31. [>종이]
- ? LLM이 추론과 Q/A를 자연스럽게 인터리브하도록 만듭니다. "ReAct: 언어 모델에서 추론과 행동의 시너지 효과." 2022-10-06. [>종이]
- ? '분할 정복' 명령은 표준 CoT보다 훨씬 더 성능이 뛰어납니다. "최소 대 최대 프롬프트는 대규모 언어 모델에서 복잡한 추론을 가능하게 합니다" 2022-05-21. [>종이]
다중 대리인 심의
하나 또는 여러 개의 LLM이 무료 논쟁을 시뮬레이션하도록 합니다.
- ? ? 답변을 반복적으로 검토하고 개선하는 신중하게 선택된 개방형 LLM은 GPT4-o보다 우수합니다. "에이전트 혼합으로 대규모 언어 모델 기능이 향상됩니다." 2024-06-10. [>종이] [>코드]
- ? 이 리뷰에 따르면 더 정교하고 비용이 많이 드는 다중 에이전트 시스템 설계는 일반적으로 더 효과적입니다. "우리는 미친 듯이 가고 있습니까? 의료 Q&A를 위한 언어 모델 간의 다중 에이전트 토론 벤치마킹." 2023-11-19. [>종이]
- ? 체계적인 동료 검토는 다중 에이전트 토론보다 훨씬 좋습니다. "다중 에이전트 동료 검토 협업을 통한 대규모 언어 모델의 추론을 향하여." 2023-11-14. [>종이]
- ? 집단적 비판과 성찰은 사실적 환각과 독성을 줄입니다. “N-비평가: 비평가 앙상블을 통한 대규모 언어 모델의 자체 개선.” 2023-10-28. [>종이]
- ? ? 다양한 LLM을 갖춘 델파이 프로세스는 단순한 토론보다 실제로 더 가치가 있습니다. "ReConcile: 원탁 회의는 다양한 LLM 간의 합의를 통해 추론을 향상시킵니다." 2023-09-22. [>종이] [>코드]
- ? 다중 에이전트 토론은 인지적 다양성을 높여 성과를 높입니다. "다중 에이전트 토론을 통해 대규모 언어 모델에서 다양한 사고 장려." 2023-05-30. [>종이]
- ? 토론 시뮬레이션을 통해 군중 효과의 지혜를 활용하세요. "다중 에이전트 토론을 통해 언어 모델의 사실성과 추론을 개선합니다." 2023-05-23. [>종이]
- ? ? Socratic 대화를 에뮬레이션하여 여러 AI 에이전트의 문제를 공동으로 해결합니다. “대규모 언어 모델에서 자기 발견을 위한 소크라테스식 방법.” 2023-05-05. [>블로그] [>코드]
성찰과 메타인지
1차 숙고를 향상시킬 수 있는 고차 추론 전략.
- ? ? CoT 문제 해결을 통해 얻은 일반적인 통찰력을 추적하면 향후 정확성과 효율성이 향상됩니다. “생각의 완충기: 대규모 언어 모델을 이용한 사고 증강 추론.” 2024-06-06. [>종이] [>코드]
- ? ? 자체 평가 난이도에 따라 작업을 처리하면 CoT 효율성이 향상됩니다. "대규모 언어 모델 추론을 위한 분할 및 정복." 2024-01-10. [>종이] [>코드]
- ? ? 작업을 반영하면 LLM이 보다 효과적인 지침, 시연 및 추론 추적을 자동 생성할 수 있습니다. "Meta-CoT: 대규모 언어 모델을 사용하는 혼합 작업 시나리오에서 일반화 가능한 사고 사슬 프롬프트." 2023-10-11. [>종이] [>코드]
- ? ? LLM 기반 AI 강사는 효과적인 1차 CoT 지침을 고안합니다(오픈 소스 모델은 최대 20% 향상). "에이전트는 대규모 언어 모델에 일반 제로샷 추론자가 되도록 지시합니다." 2023-10-05. [>종이] [>코드]
- ? ? 명확화→판단→평가→확인→적격 패러다임. "메타인지 프롬프트는 대규모 언어 모델의 이해를 향상시킵니다." 2023-08-10. [>종이] [>코드]
- ? ? 이 문제에 대한 전문가를 찾아 시뮬레이션하는 전략. "대규모 언어 모델을 위한 신속한 프로그래밍: Few-Shot 패러다임을 넘어서." 2021-02-15. [>종이] [>lmql]
텍스트 생성 기술
프롬프트 패턴 및 전략과 결합할 수 있는 텍스트 생성 기술.
- ? 이전 CoT 추적을 고려하여 추론을 반복적으로 수정하면 정확도가 10~20% 향상됩니다. "RAT: 검색 증강 사고는 Long-Horizon Generation에서 상황 인식 추론을 유도합니다". 2024-03-08. [>종이]
- ? 효과적인 CoT 퓨샷 데모를 자체 생성하고 선택하기 위한 파이프라인입니다. "보편적 자기 적응 프롬프트". 2023-05-24. [>종이]
- ? 더 많은 추론(= 더 긴 추론 추적)이 더 좋습니다. "대규모 언어 모델에 대한 추론 단계 길이의 영향". 2024-01-10. [>종이]
- ? (따라서 라벨이 붙은) 정확 하고 잘못된(몇 번의 샷) 추론 시연을 통해 CoT가 향상됩니다. “대조적인 사고 사슬 촉구.” 2023-11-17. [>종이]
- ? 몇 번의 시행착오(컨텍스트 내 RL)를 통해 더 나은 문제 해결 및 심의가 가능합니다. “반성: 언어 강화 학습을 통한 언어 에이전트.” 2023-03-20. [>종이]
- ? 추론 생성을 제한하는 외부 가이드는 선택한 작업의 정확도를 최대 35% 향상시킵니다. “언어 모델을 이용한 인증된 추론.” 2023-06-06. [>종이]
- ? ? 복잡하고 다단계 추론 에피소드를 생성하기 위한 매우 효과적인 빔 검색입니다. "생각의 나무: 대규모 언어 모델을 사용한 고의적인 문제 해결." 2023-05-17. [>종이] [>코드]
- ? 단순한 프롬프트로 생각의 나무를 최소한으로 구현한 것입니다. [>코드]
- ? 생각나무의 실험적인 LMQL 구현입니다. [>코드]
- ? ? LLM은 심의 프롬프트에 사용할 다양한 추론 데모를 자동으로 생성합니다. “대규모 언어 모델에서 자동으로 생각이 촉발됩니다.” 2022-10-07. [>종이] [>코드]
자기 교정
LLM이 스스로 심의를 수정하도록 하세요.
- ? 여러 CoT 추적 간의 일관성은 추론 신뢰성의 지표이며, 이는 자체 확인/집계에 활용될 수 있습니다. "오답 검출을 위해 단계별로 검증할 수 있나요?" 2024-02-16. [>종이]
- ? 미세 조정을 위해 표준 CoT 추적에 자체 수정 단계를 추가하여 LLM을 본질적인 자체 검사기로 전환합니다. "작은 언어 모델은 자체 수정이 가능합니다." 2024-01-14. [>종이]
- ? 강화된 자가 훈련(Reinforced Self-Training)은 검색이 강화된 다중 홉 Q/A를 향상시킵니다. "ReST와 ReAct의 만남: 다단계 추론을 위한 자기 개선 LLM 에이전트." 2023-12-15. [>종이]
- ? 추론 추적에서 중요한 질문이 해결되었는지 여부에 따른 조건부 자체 수정. "LLM 개선의 기술: 묻고, 개선하고, 신뢰하십시오." 2023-11-14. [>종이]
- ? 다양한 피드백을 바탕으로 추론을 반복적으로 개선하면 정확도가 최대 10%까지 향상됩니다(ChatGPT). "MAF: 대규모 언어 모델의 추론 개선을 위한 다중 측면 피드백." 2023-10-19. [>종이]
- ? 답변을 "검토"하고 "문제를 찾아내도록" 모델에 지시하는 것은 효과적인 자체 수정으로 이어지지 않습니다. "대규모 언어 모델은 아직 추론을 자체적으로 수정할 수 없습니다." 2023-09-25. [>종이]
- ? LLM은 초안을 개선하기 위해 중요한 질문을 제시하고 해결할 수 있습니다. "검증 체인은 대규모 언어 모델에서 환각을 줄입니다." 2023-09-25. [>종이]
- ? LogiCoT: 각 CoT 단계 후 자체 점검 및 수정으로 성능이 향상됩니다(선택한 작업 및 모델에 대해). "논리를 통해 대규모 언어 모델에서 제로샷 사고 사슬 추론 강화." 2023-09-23. [>종이]
- ? 불성실한 추론을 적용한 자체 수정 LLM에 대한 훌륭한 검토입니다. "대규모 언어 모델 자동 수정: 다양한 자체 수정 전략의 환경 조사." 2023-08-06. [>종이]
추론 분석
LLM 심의 분석 및 추론 품질 평가 방법.
- ?? 텍스트를 개별적인 이유로 분류하는 포괄적인 LLM 기반 추론 분석입니다. "DCR-일관성: 일관성 평가 및 대규모 언어 모델 개선을 위한 분할 정복 추론." 2024-01-04. [>종이] [>코드]
- ?? 추론 검증을 위한 고성능 개방형 LLM(T5 기반)입니다. "마음 대 기계: 언어 모델을 통한 수반 검증 재고." 2024-02-06. [>종이] [>모델]
- ?? CoT 평가자를 위한 테스트 데이터세트입니다. "생각의 사슬은 가장 약한 고리만큼 강력합니다: 추론 사슬의 검증자를 위한 벤치마크." 2023-11-23. [>종이] [>데이터세트]
- ?? 추론 체인을 최종 답변을 도출하는 비공식적 증거로 간주하여 평가하기 위한 프레임워크입니다. "ReCEval: 정확성과 정보성을 통해 추론 체인 평가." 2023-11-23. [>종이] [>코드]
- ? GPT-4는 수학 추론이 올바른지 예측하는 데 GPT-3.5보다 5배 더 좋습니다. "추론에 대한 추론에 대한 LLM의 도전: LLM의 인지적 깊이를 밝히는 벤치마크." 2023-12-28. [>종이]
- ? 최소한의 GPT-4는 추론 품질을 평가하라는 메시지를 표시합니다. "SocREval: 무참조 추론 평가를 위한 Socratic 방법을 사용한 대규모 언어 모델." 2023-09-29. [>종이] [>코드]
- CoT 추적(중복성, 충실도, 일관성 등)을 평가하기 위한 자동 의미 유사성 기반 메트릭입니다. "ROSCOE: 단계별 추론을 위한 일련의 측정항목." 2023-09-12. [>종이]
한계, 실패, 수수께끼
작동하지 않거나 제대로 이해되지 않는 것.
- ? 추론 품질과 CoT 효율성을 저하시키는 구조화된 생성 위험. "자유롭게 말하게 해주세요. 형식 제한이 대규모 언어 모델의 성능에 미치는 영향에 관한 연구." 2024-08-05. [>종이]
- ? 필러 토큰은 정답을 도출하기 위한 건전한 추론 추적만큼 효과적일 수 있습니다. "점별로 생각해보자: 변환기 언어 모델의 숨겨진 계산." 2024-04-24. [>종이]
- ? 인과 분석에 따르면 LLM은 때때로 CoT 추적을 무시하지만 이유 반응성은 모델 크기에 따라 증가하고 미세 조정을 통해 형성됩니다. "사고 사슬을 갖춘 LLM은 비인과적 추론자입니다" 2024-02-25. [>종이]
- ? 잘못된 추론은 올바른 결론으로 이어질 수 있으므로 CoT 평가를 위한 더 나은 방법이 필요합니다. "SCORE: 자기모순적 추론 평가를 위한 프레임워크." 2023-11-16. [>종이]
- ? LLM은 인간이 이해할 수 없는 "인코딩된 추론"을 생성할 수 있으며, 이는 심의 프롬프트를 통해 얻은 XAI 이득을 무효화할 수 있습니다. "언어 모델이 추론을 숨기는 것을 방지합니다." 2023-10-27. [>종이]
- ? LLM은 이용 가능한 주장(이성 반응성)에 따라 판단하고 결정하지만 건전한 이유에 비해 잘못된 이유와 기만적인 이유에 더 큰 영향을 받습니다. "LLM은 논리적 오류에 얼마나 취약합니까?" 2023-08-18. [>종이]
- ? 잘못된 추론은 올바른 추론만큼 답변 정확도를 (거의) 향상시킵니다. "잘못된 논리, 등가 이득: 언어 모델 프롬프트에서 추론의 기괴함." 2023-07-20. [>종이]
- ? 민감한 도메인에서 제로샷 CoT 추론은 LLM이 유해하거나 바람직하지 않은 출력을 생성할 가능성을 높입니다. "다시 생각해보면, 단계별로 생각하지 말자! 제로샷 추론의 편견과 독성." 2023-06-23. [>종이]
- ? LLM은 잘못된 답변에 대한 잘못된 CoT 근거를 체계적으로 조작할 수 있다고 NYU/Anthropic 팀이 밝혔습니다. "언어 모델은 항상 자신이 생각하는 대로 말하지 않습니다. 생각의 사슬 프롬프트에서 불성실한 설명입니다." 2023-05-07. [>종이]
- ? LLM의 실질적인 심의는 견고하지 않지만 시나리오를 다시 작성하면 쉽게 길을 잃을 수 있습니다. "'초인적인' 성과에도 불구하고 현재 LLM은 윤리 및 안전에 관한 결정에 적합하지 않습니다." 2022-12-13. [>종이]
데이터세트
모델 훈련/심의 기술 평가에 잠재적으로 유용한 심의 프롬프트의 예가 포함된 데이터 세트입니다.
- LLM에 의해 생성된 "추론 추적"으로 강화된 명령 따르기 데이터 세트입니다.
- ? ORCA - Microsoft의 원본 문서입니다. "Orca: GPT-4의 복잡한 설명 추적을 통한 점진적 학습." 2023-06-05. [>종이]
- ? OpenOrca - ORCA 데이터 세트의 오픈 소스 복제입니다. [>데이터세트]
- ? Dolphin - ORCA 데이터 세트의 오픈 소스 복제. [>데이터세트]
- ? ORCA 2 - Microsoft가 개선한 Orca(예: 메타 추론 포함) "Orca 2: 추론 방법을 소규모 언어 모델에 교육." 2023-11-18. [>종이]
- ?? CoT 컬렉션 - 1,060개 작업에 대한 184만 개의 추론 추적. "CoT 컬렉션: 사고 사슬 미세 조정을 통해 언어 모델의 제로샷 및 퓨샷 학습 개선." [>종이] [>코드]
- ? OASST1 - 장단점을 생성하는 200개 이상의 지침이 포함되어 있습니다(nomic.ai의 지도에 따라). [>데이터세트]
- ? LegalBench - LLM의 법적 추론을 위한 벤치마크 [>논문]
- ?? ThoughtSource - 대규모 언어 모델의 사고 사슬 추론과 관련된 데이터 및 도구에 대한 공개 리소스입니다. [>종이] [>코드]
- ?? CoT 관련 데이터 세트에 대한 많은 힌트를 검토하세요. "대규모 언어 모델을 위한 데이터세트: 종합적인 조사" [>논문] [>코드]
- ? Maxime Labonne의 LLM 데이터 세트 목록 [github]
도구 및 프레임워크
심의 프롬프트를 구현하기 위한 도구 및 프레임워크.
- ? LMQL - 언어 모델 상호 작용을 위한 프로그래밍 언어입니다. [>사이트]
- ? 대화형 LMQL 놀이터 [>사이트]
- ? "프롬프트는 프로그래밍이다: 대규모 언어 모델을 위한 쿼리 언어." 2022-12-12. [>종이]
- ? {{guidance}} - 대규모 언어 모델을 제어하기 위한 언어입니다. [>코드]
- ? 개요 ~ - 안내 텍스트 생성을 위한 언어입니다. [>코드]
- ? DSPy - LLM에 대한 프로그래밍 인터페이스입니다. [>코드]
- ? llm-reasoners – 고급 대규모 언어 모델 추론을 위한 라이브러리입니다. [>코드]
- ? ThinkGPT - 일련의 사고 흐름을 위한 프레임워크 및 빌딩 블록입니다. [>코드]
- ? LangChain - LLM 체인 및 에이전트 구축을 위한 Python 라이브러리입니다. [>코드]
- ? PromptBench - LLMS, 특히 CoT 프롬프트의 효율성을 평가하기 위한 통합 라이브러리입니다. [>코드]
- ? SymbolicAI - LLM을 사용한 구성 미분 프로그래밍을 위한 라이브러리입니다. [>코드]
기타 리소스
더욱 멋지고 유용한 자료입니다.
- 자율 LLM 에이전트 설문조사 (지속적으로 업데이트됨) [>사이트]
- ? LLM 대시보드 - 개방형 LLM의 작업별 추론 성능 탐색 [>앱]
- DAIR에서 설정한 프롬프트 엔지니어링 가이드 . [>사이트]
- ATLAS - 체계적 프롬프트 [>코드]를 위한 원칙 및 벤치마크
- Logikon이 설정한 심의 프롬프트 가이드 . [>사이트]
- Arguing with Arguments – H. Siegel이 최근에 쓴 멋진 글로, 논증을 평가한다는 것이 실제로 무엇을 의미하는지 논의합니다. [>종이]