LLM(대규모 언어 모델)은 복잡한 추론 문제에 직면하고 있으며 OpenR이라는 혁신적인 오픈 소스 프레임워크가 등장했습니다. University College London을 포함한 여러 대학의 연구원들이 공동으로 개발한 OpenR은 테스트 시간 계산, 강화 학습 및 프로세스 감독을 결합하여 LLM의 추론 기능을 크게 향상시킵니다. 이는 고급 모델의 추론 기능을 복제할 뿐만 아니라 이를 기반으로 획기적인 발전을 이루며 수학, 프로그래밍 및 과학 문제에서 LLM의 단점을 해결하기 위한 새로운 아이디어를 제공합니다. 다운코드 편집자는 OpenR 프레임워크의 독특한 디자인과 탁월한 성능에 대한 심층적인 이해를 제공합니다.
복잡한 추론 작업에서 LLM(대형 언어 모델)의 단점을 해결하는 것을 목표로 하는 OpenR이라는 혁신적인 오픈 소스 프레임워크가 최근 출시되었습니다. University College London, University of Liverpool, Shanghai Jiao Tong University, Hong Kong University of Science and Technology(광저우) 및 Westlake University의 연구원들이 공동으로 개발한 이 프레임워크는 LLM의 추론 능력을 향상시키기 위한 새로운 길을 열어줍니다. 테스트 시간 컴퓨팅, 강화 학습 및 프로세스 감독.
LLM은 언어 생성 분야에서 상당한 진전을 이루었지만 여전히 수학, 프로그래밍, 과학 문제와 같은 복잡한 작업을 처리하는 데 어려움을 겪고 있습니다. OpenR의 출현은 이러한 격차를 해소하고 LLM의 기능을 간단한 텍스트 생성에서 고급 추론 분야로 확장하는 것입니다.
OpenR의 디자인은 부분적으로 OpenAI의 o1 모델에서 영감을 받았지만 그 목표는 더 야심적입니다. 즉, 고급 언어 모델의 추론 기능을 복제할 뿐만 아니라 이를 기반으로 획기적인 발전을 이루는 것입니다. 이러한 복잡한 추론 지원을 제공하는 최초의 오픈 소스 솔루션인 OpenR은 추론 중심의 대규모 언어 모델 개발을 가속화하는 것을 목표로 데이터 수집, 프로세스 보상 모델 및 효율적인 추론 방법에 중점을 둡니다.
사진 출처 참고: 사진은 AI에 의해 생성되었으며 사진은 서비스 제공업체 Midjourney의 승인을 받았습니다.
프레임워크의 핵심 구조는 다중 경로 탐색과 결합된 데이터 증대, 정책 학습 및 추론 지침을 중심으로 이루어집니다. OpenR은 MDP(Markov Decision Process)를 사용하여 추론 작업을 모델링하고 복잡한 추론 프로세스를 평가 및 최적화할 수 있는 일련의 단계로 분해합니다. 이 방법은 추론 능력을 직접적으로 육성할 뿐만 아니라 각 단계에서 다양한 추론 경로를 탐색하여 추론 프로세스의 견고성을 크게 향상시킵니다.
프레임워크의 또 다른 주요 기능은 중간 추론 단계에 대한 자세한 피드백을 제공하는 프로세스 보상 모델(PRM)입니다. 이를 통해 모델은 최종 결과에 대한 판단에만 의존하기보다는 보다 정확하게 결정을 조정할 수 있습니다. 이 세밀한 지침은 모델의 학습 효율성을 크게 향상시킵니다.
실제 테스트에서 OpenR은 인상적인 성능을 보여주었습니다. MATH 데이터 세트를 벤치마크로 사용하면 OpenR의 추론 정확도는 기존 방법보다 약 10% 더 높습니다. 또한 이 연구에서는 Best-of-N 및 Beam Search와 같은 다중 경로 탐색 방법이 특히 컴퓨팅 리소스가 제한적인 경우 단순한 다수 투표 기술보다 훨씬 더 우수하다는 사실도 발견했습니다.
OpenR의 강화 학습 기술, 특히 PRM을 활용하는 방법은 온라인 정책 학습 시나리오에서 잘 수행되며 LLM의 추론 기능의 지속적인 개선을 촉진합니다. 이 결과는 신중하게 설계된 학습 전략을 통해 LLM이 복잡한 추론 작업에서 획기적인 진전을 이룰 수 있는 잠재력을 가지고 있음을 보여줍니다.
오픈 소스 플랫폼인 OpenR은 연구원과 개발자에게 언어 모델 추론 기능을 향상시키기 위해 협력할 수 있는 귀중한 리소스를 제공합니다. 이는 현재 LLM에 대한 업그레이드 경로를 제공할 뿐만 아니라 미래에 더욱 스마트하고 추론 가능한 AI 시스템을 위한 길을 열어줍니다.
미래를 내다보면서 OpenR 팀은 프레임워크의 기능을 더욱 확장하여 더 넓은 범위의 추론 작업 유형을 포괄하고 추론 프로세스를 계속 최적화할 계획입니다. 이러한 노력은 스스로 발전하는 추론 AI 에이전트의 장기적 목표에 중요한 기여를 할 것으로 기대된다.
프로젝트 주소: https://github.com/facebook/openr
전체적으로 OpenR 프레임워크의 출현은 복잡한 추론 분야에서 대규모 언어 모델의 획기적인 발전을 위한 새로운 가능성을 제공합니다. OpenR 프레임워크의 오픈 소스 기능은 또한 더 많은 연구자와 개발자의 참여를 촉진하여 인공 지능 기술의 발전을 공동으로 촉진합니다. OpenR이 앞으로 더욱 의미 있는 성과를 거두고 더욱 스마트한 AI 시스템 구축에 기여할 수 있기를 기대합니다.