재치를 갖춘 세 명의 구두 수선공이 합쳐져 주인공인 Zhuge Liang과 동등해졌습니다. ---중국의 옛말.
언어 모델의 추론 능력을 향상시키는 새로운 제로샷 프롬프트 마법 단어를 소개합니다: 패널 토론 !
컨퍼런스와 워크숍에서는 항상 전문가들 사이에서 형벌적인 토론이 이루어지며, 사람들은 주어진 주제에 대해 의견을 교환하여 새로운 개념에 대한 이해를 높이고, 사고의 관점을 바꾸며, 일반적인 논쟁이나 토론에 대한 보다 포괄적인 이해에 도달합니다.
그림 1: Jack Ma와 Elon Musk 간의 패널 토론, WAIC, 2019:
이 아이디어는 자기 일관성 작업(Wang, Xuezhi 등)과 관련이 있습니다. (여러 전문가가 패널 토론 중에 서로 동의하지 않을 수 있기 때문입니다.)
우리는 gpt-3.5-turbo API를 사용하여 GSM8K 데이터 세트에서 제안된 프롬프트 방법의 효율성을 평가합니다.
1,000개 GSM8k 테스트 데이터세트의 각 프롬프트를 평가하는 데 드는 비용은 2달러 미만입니다.
우리의 패널 토론 프롬프트는 최고의 성능을 달성했으며 절제 연구는 각 요소 이점의 중요성을 보여줍니다. 차선책 및 세 번째 최고는 각각 밑줄 및 기울임꼴 형식으로 표시됩니다.
메소드데이터세트 | GSM8K(테스트 1k) | 프롬프트 내용 | 참조 |
---|---|---|---|
프롬프트 없음 | 0.789 | 대답은 다음과 같습니다. | - |
제로샷 CoT | 0.854 | 단계별로 생각해 봅시다: | (코지마, 다케시 외. 2022) |
APE 향상된 CoT | 0.845 | 올바른 답을 얻을 수 있도록 단계별로 이를 해결해 보겠습니다. | (저우, 용차오 외. 2023) |
ToT 프롬프트 | 0.842 | 세 명의 다른 전문가가 이 질문에 답하고 있다고 상상해 보세요. 모든 전문가는 자신의 생각을 1단계씩 기록한 후 그룹과 공유합니다. 그런 다음 모든 전문가는 다음 단계로 넘어갑니다. 전문가가 어느 시점에서든 자신이 틀렸다는 것을 깨닫게 되면 떠나게 됩니다. | (데이브 헐버트의 레포 2023) |
패널GPT | 0.899 | 3명의 전문가가 패널 토론을 통해 문제를 논의하고 단계별로 해결하려고 노력하며 결과가 올바른지 확인 하고 처벌을 피합니다 . | (본 저장소, 2023년 7월 18일) |
AE 및 EA가 없는 PanelGPT | 0.878 | 3명의 전문가가 토론을 통해 문제를 논의하고 단계별로 해결하려고 노력하며 결과가 올바른지 확인합니다. | (저희, 절제 연구) |
AE가 없는 PanelGPT | 0.84 | 3명의 전문가가 토론을 통해 문제를 논의하고 단계별로 해결하려고 노력하며 결과가 올바른지 확인하고 처벌을 피합니다. | (저희, 절제 연구) |
EA가 없는 PanelGPT | 0.894 | 3명의 전문가가 패널 토론을 통해 문제를 논의하고 단계별로 해결하려고 노력하며 결과가 올바른지 확인합니다. | (저희, 절제 연구) |
피 이자형 N 에이 lGPT(철자가 틀렸음) | 0.883 | 3명의 전문가가 문제에 대해 형사 토론을 통해 단계별로 해결하고 결과가 올바른지 확인하려고 노력하고 있습니다. | (저희, 절제 연구) |
제로샷 프롬프트 기능은 GPT-3 및 GPT-4와 같은 대량의 데이터로 훈련된 언어 모델에서 나타납니다(Ouyang et al., 2022; OpenAI, 2023). 그리고 이는 Wei et al. (2021) 지침 미세 조정은 언어 모델의 제로샷 학습 능력을 향상시킵니다.
대규모 언어 모델이 보여주는 인상적인 제로샷 성능에도 불구하고 이러한 모델은 제로샷 설정에서 더 복잡한 작업을 실행하는 데 종종 최적이 아닌 성능을 나타냅니다. 몇 번의 프롬프트를 활용하는 것은 상황 내 학습을 촉진하기 위한 실행 가능한 접근 방식을 제시합니다(Brown et al., 2020; Min et al., 2022). 이 기술을 사용하려면 프롬프트 내에 데모를 포함시켜 모델의 성능을 효과적으로 향상시켜야 합니다. 이러한 시연은 후속 사례에 대한 조건화 메커니즘 역할을 하여 모델이 더 나은 응답을 생성하도록 유도합니다.
복잡한 산술, 상식, 기호 추론 작업과 같은 좀 더 어려운 작업에서는 CoT(사고 사슬) 프롬프트가 언어 모델이 정답을 얻는 데 더 효과적인 것으로 나타났습니다(Wei et al., 2022). CoT에는 몇 번의 프롬프트 예시에 추가 추론 단계가 포함되어 있습니다. Kojimaet al. (2022)은 제로샷 CoT를 추가로 도입하여 작업에 구애받지 않는 지침을 추가하면 특정 작업에서 모델 성능을 향상시킬 수 있음을 보여줍니다. Zhang et al. (2022b), Auto-CoT는 제로샷 CoT의 보편성과 데모를 통해 구동되는 원본 CoT의 기능을 결합하고 CoT 추론에 유용한 클러스터링 및 다양성 기반 샘플링을 기반으로 데모를 자동으로 구성하도록 제안합니다.
왕 외. (2022)은 여러 개의 다양한 추론 경로를 샘플링하고 해당 경로를 소외시키고 샘플링된 모든 추론 경로 중에서 가장 일관된 답변을 선택하여 소수 CoT 방법을 개선합니다. 생성된 지식 유도 Liu et al. (2021)은 질문과 관련된 지식이나 정보를 통합하여 보다 정확한 예측을 함으로써 상식적 추론을 향상시킨다. ToT(Tree-of-thoughts) 방법(Long, 2023; Yao et al., 2023)은 트리 기반 계획 방법과 언어 모델의 추론 기술을 결합하고 여러 라운드 대화를 통해 어려운 추론 문제를 단계별로 해결합니다. Hulbert(2023)는 또한 단일 프롬프트에서 언어 모델의 다양한 생각을 활용하는 관련 아이디어를 제시했습니다. 메모리 및 검색 증강 생성(RAG)(Lewis et al., 2020)은 지식 집약적 작업을 완료할 때 Wikipedia와 같은 매개변수 메모리와 비모수 메모리를 결합할 수 있습니다. MoT(Li & Qiu, 2023): 레이블이 지정되지 않은 외부 데이터 세트를 기반으로 사전 사고한 다음 추론 중에 관련 지식을 회상합니다.
Prompt-OIRL은 오프라인 역 강화 학습을 사용하여 오프라인 프롬프트 평가 및 최적화를 수행하는 아이디어를 도입합니다. 이 방법은 효율적이고 효과적입니다. M2 칩 MacBook Air에서 Prompt-OIRL 교육은 1시간 밖에 걸리지 않지만 산술 추론 작업에 대한 다양한 LLM의 성능은 최대 24%까지 향상될 수 있습니다.
우리의 코드와 프롬프트를 사용하는 경우, 우리의 논문을 인용하는 것을 고려해 보십시오:
@inproceedings{sun2023query, title={오프라인 역 RL을 사용한 쿼리 종속 프롬프트 평가 및 최적화}, 작성자={Sun, Hao 및 H{"u}y{"u}k, Alihan 및 van der Schaar, Mihaela}, 책제목 ={제12차 학습 표현에 관한 국제 컨퍼런스}, year={2023}}@article{sun2023reinforcement, title={LLM 시대의 강화 학습: 필수적인 것은 무엇인가? 무엇이 필요합니까? RLHF, 프롬프트 및 그 너머에 대한 RL 관점}, 저자={Sun, Hao}, 저널={arXiv 사전 인쇄 arXiv:2310.06147}, 연도={2023}}