Allen Institute for Artificial Intelligence(AI2)에서 출시한 최신 Tülu3 모델 시리즈는 오픈 소스 언어 모델 분야에 인상적인 혁신을 가져왔습니다. Tülu3은 성능 면에서 GPT-4o-mini와 같은 비공개 소스 모델과 비교할 수 있을 뿐만 아니라 더 중요한 것은 완전히 오픈 소스이며 포괄적인 교육 데이터, 코드, 교육 레시피 및 평가 프레임워크를 제공한다는 점입니다. 이는 개방성을 촉진하는 데 중요합니다. 소스 모델 교육 기술의 개발은 획기적인 의미를 갖습니다. 유해한 정보 생성, 지시 따르기 어려움 등 기존 사전 훈련 모델의 실제 적용에 존재하는 많은 문제를 해결하고 인공 지능 분야의 연구 및 적용에 새로운 가능성을 제공합니다.
인공지능 분야에서 사후 훈련 기술은 모델 성능을 향상시키는 중요한 수단으로 점차 자리잡고 있습니다. 최근 Allen Institute for Artificial Intelligence(AI2)는 GPT-4o-mini와 같은 폐쇄 소스 모델에 필적하는 성능을 갖춘 완전 오픈 소스 고급 언어 모델인 Tülu3 시리즈 모델을 출시했습니다. Tülu3에는 모델 데이터, 코드 및 훈련 레시피가 포함될 뿐만 아니라 오픈 소스 모델 사후 훈련 기술 개발을 촉진하는 것을 목표로 하는 평가 프레임워크도 제공됩니다.
전통적으로 사전 훈련된 모델만으로는 실제 애플리케이션 요구 사항을 충족하는 데 효과적이지 않고 유해하거나 위험한 정보를 생성할 수 있으며 사람의 지시를 따르기가 어려운 경우가 많습니다. 따라서 교육 미세 조정 및 인간 피드백 학습과 같은 교육 후 단계가 특히 중요합니다. 그러나 훈련 후 프로세스를 최적화하는 방법은 여전히 기술적인 문제입니다. 특히 모델의 한 능력을 향상할 때 다른 능력에 영향을 미칠 수 있습니다.
이 문제를 극복하기 위해 주요 기업에서는 여러 차례의 학습을 시도하고 인공 데이터와 합성 데이터를 결합하는 등 학습 후 방법의 복잡성을 증가시켰지만 대부분의 방법은 여전히 비공개 소스입니다. 반면, Tülu3 시리즈의 출시는 오픈 소스 모델과 폐쇄 소스 모델 간의 성능 격차를 해소하고 새로운 교육 아이디어를 가져왔습니다.
Tülu3의 훈련 과정은 데이터 구성, 감독된 미세 조정, 선호도 조정 및 검증 가능한 보상을 통한 강화 학습의 4단계로 나뉩니다.
첫째, 연구자들은 모델의 핵심 기술에 집중하고, 인공 데이터와 합성 데이터를 결합하여 훈련 데이터를 구축합니다.
둘째, 모델이 특정 기술에 대해 다른 최첨단 모델과 마찬가지로 성능을 발휘할 수 있도록 감독된 미세 조정이 수행됩니다.
셋째, 모델의 전반적인 성능을 더욱 향상시키기 위해 직접 선호 최적화 방법을 사용합니다. 마지막으로, 모델이 검증 가능한 결과로 작업을 더 잘 완료할 수 있도록 검증 가능한 보상 강화 학습의 혁신적인 방법이 도입되었습니다.
Tülu3 모델은 Llama3.1을 기반으로 구축되었으며 추론, 수학, 프로그래밍 및 교육 따르기 등의 영역에서 탁월한 성능을 발휘합니다. 다른 오픈 소스 및 비공개 소스 모델과 비교할 때 Tülu3의 포괄적인 기능은 여러 벤치마크에서 좋은 성능을 발휘하여 오픈 소스 이후 교육 기술이 크게 발전했습니다.
논문 링크: https://allenai.org/papers/tulu-3-report.pdf
데모: https://playground.allenai.org/
하이라이트:
? Tülu3은 AI2가 출시한 오픈 소스 언어 모델로, GPT-4o-mini와 같은 폐쇄 소스 모델과 비슷한 성능을 가지고 있습니다.
? 사후 훈련 기술은 매우 중요하며 실제 응용 분야에서 모델의 성능을 효과적으로 향상시킬 수 있습니다.
? Tülu3의 혁신적인 훈련 프로세스는 데이터 구성, 감독된 미세 조정, 선호도 조정 및 검증 가능한 보상 강화 학습의 4단계로 나뉩니다.
Tülu3의 오픈 소스 특성을 통해 연구자들은 훈련 방법을 깊이 연구하고 이를 기반으로 개선과 혁신을 이룰 수 있으며, 이는 오픈 소스 언어 모델 개발을 크게 촉진할 것입니다. 다양한 분야에서 뛰어난 성능을 보이는 것은 오픈소스 모델이 앞으로 더욱 중요한 역할을 하게 될 것임을 의미하기도 합니다. Tülu3는 인공지능 기술의 대중화와 적용을 더욱 촉진할 수 있을 것으로 기대된다.