Downcodes의 편집자는 Meta FAIR, University of California, Berkeley 및 New York University의 연구원들이 명령 처리 및 대규모 언어 모델 처리를 크게 향상시키는 것을 목표로 하는 Thinking Preference Optimization(TPO)이라는 새로운 기술을 공동 개발했다는 사실을 알게 되었습니다. (LLM). 응답 품질. 이 기술은 최종 답변에만 초점을 맞춘 기존 LLM의 한계를 뛰어넘어 인간의 사고 과정을 시뮬레이션함으로써 모델이 답변을 제공하기 전에 내부 반성과 추론을 수행하여 보다 정확하고 일관된 응답을 생성할 수 있도록 합니다. 이 기술은 다양한 분야에서 LLM 적용에 혁명을 일으키고 사용자에게 더 나은 AI 대화형 경험을 제공할 것으로 기대됩니다.
TPO 기술의 핵심은 향상된 CoT(Chain of Thinking) 추론 방식입니다. 이 접근 방식은 모델이 훈련 중에 "답변하기 전에 생각"하도록 장려하여 최종 답을 제공하기 전에 보다 체계적인 내부 사고 과정을 개발하는 데 도움이 됩니다. 기존 CoT 프롬프트는 때때로 정확도가 떨어지며 명확한 사고 단계가 부족하여 훈련하기가 매우 까다롭습니다. TPO는 모델이 사용자에게 중간 단계를 노출하지 않고도 사고 프로세스를 최적화하고 단순화할 수 있도록 함으로써 이러한 과제를 성공적으로 극복합니다.
TPO의 훈련 과정에서 먼저 대규모 언어 모델을 통해 여러 아이디어를 생성한 다음 최종 답변을 정리합니다. 그런 다음 이러한 출력은 "판단자" 모델에 의해 평가되어 최고 및 최악의 응답을 선택합니다. 이러한 평가 결과는 모델의 응답 품질을 지속적으로 개선하기 위해 직접 선호 최적화(DPO)를 위한 "선택" 및 "거부" 쌍으로 사용됩니다.
훈련 단서를 조정함으로써 TPO는 모델이 대답하기 전에 내부적으로 생각하도록 권장합니다. 이 프로세스는 모델이 답변을 구체화하여 더 명확하고 관련성이 높아지도록 안내합니다. 마지막으로 최종 답안에만 점수를 매기는 LLM 기반 평가 모델로 평가 작업이 완료되므로 숨겨진 사고 단계에서 독립되어 모델이 답안의 품질을 향상시키는 데 도움이 됩니다. TPO는 또한 직접 선호도 최적화를 사용하여 숨겨진 사고가 포함된 선호 답변과 거부 답변 쌍을 생성합니다. 여러 라운드의 교육 후에 모델의 내부 프로세스가 더욱 개선됩니다.
AlpacaEval 및 Arena-Hard에 대한 벤치마크에서 TPO 방법은 기존 응답 기준을 능가했으며 Thinking Tips의 Llama-3-8B-Instruct 모델보다 성능이 뛰어났습니다. 이 접근 방식의 반복 교육은 사고 생성 기능을 최적화하여 궁극적으로 여러 기본 모델보다 뛰어난 성능을 발휘합니다. TPO는 논리나 수학적 과제에 적합할 뿐만 아니라 마케팅, 건강 등 창의적 분야의 과제에 따른 지도에도 재능을 보인다는 점을 언급할 가치가 있습니다.
AI 및 로봇 공학 전문가인 Karan Verma는 소셜 플랫폼 Good 치료 효과에서 "생각하는 LLM" 개념에 대한 자신의 견해를 공유했습니다.
이러한 구조화된 내부 사고 프로세스를 통해 모델은 복잡한 지시를 보다 효과적으로 처리할 수 있으며, 인간이 특정 사고 데이터를 제공할 필요 없이 다단계 추론과 상세한 이해가 필요한 분야로 적용 범위가 더욱 확대됩니다. 이 연구는 TPO가 유연성과 응답 생성의 깊이에 대한 높은 요구 사항이 있는 분야에 적합하도록 다양한 상황에서 대규모 언어 모델을 보다 유연하고 효율적으로 만들 수 있는 잠재력을 가지고 있음을 보여줍니다.
결국, TPO 기술의 출현은 대규모 언어 모델의 성능 향상에 대한 새로운 가능성을 가져왔고, 다양한 분야에서의 적용 가능성이 기대된다. Downcodes의 편집자는 기술의 지속적인 개발과 개선을 통해 TPO가 더 많은 분야에서 큰 역할을 하고 인공 지능 개발에 기여할 것이라고 믿습니다.