Downcodes의 편집자는 Shanghai AI Lab 팀이 LLaMA 버전 o1 프로젝트를 오픈소스로 공개했다는 사실을 알게 되었습니다. 이것은 흥미로운 소식입니다! 이 프로젝트는 OpenAI의 수학적 퍼즐 해결 인공물인 o1을 재현하는 것을 목표로 하며 상당한 진전을 이루었습니다. 팀은 몬테카를로 트리 검색 및 강화 학습과 같은 고급 기술을 능숙하게 사용하여 AIME2024 벤치마크 테스트에서 많은 폐쇄 소스 솔루션을 능가하며 강력한 기술적 강점과 오픈 소스 정신을 입증했습니다. 오픈 소스 프로젝트에는 사전 훈련된 데이터 세트, 모델 및 훈련 코드가 포함되어 있어 개발자에게 귀중한 학습 리소스를 제공합니다.
OpenAI의 o1 시리즈가 출시되기 오래 전에 Shanghai AI Lab 팀은 대형 모델의 수학적 기능을 향상시키기 위해 몬테카를로 트리 검색 사용을 탐색하기 시작했습니다. o1 출시 이후 팀은 수학 올림피아드 문제에 초점을 맞춰 알고리즘을 더욱 업그레이드하고 OpenAI Strawberry Project의 오픈 소스 버전으로 개발했습니다.
수학 올림피아드 문제에 대한 LLaMA 모델의 성능을 향상시키기 위해 팀은 답변의 절대 점수를 직접 제공하지 않고 두 답변의 상대적 장점을 비교하는 쌍별 최적화 전략을 채택했습니다. 이 접근 방식을 통해 그들은 가장 어려운 AIME2024 벤치마크에서 상당한 개선을 달성했습니다. 30개의 시험 문제 중 최적화된 모델은 8개의 문제를 맞혔지만 원래 LLaMA-3.1-8B-Instruct 모델은 2개의 문제만 맞혔습니다. 이 성과는 o1-preview 및 o1-mini를 제외한 다른 상용 비공개 소스 솔루션을 능가합니다.
지난 10월 말, 팀은 AlphaGo Zero 아키텍처를 기반으로 OpenAI o1을 재현하는 데 상당한 진전을 이루었으며, 수동 주석 없이 학습 과정에서 검색 트리와 상호 작용하여 모델이 고급 사고 능력을 획득할 수 있도록 하는 데 성공했다고 발표했습니다. 일주일도 안 되어 프로젝트가 오픈 소스로 공개되었습니다.
현재 LLaMA 버전 o1의 오픈 소스 콘텐츠에는 사전 훈련 데이터 세트, 사전 훈련 모델 및 강화 학습 훈련 코드가 포함됩니다. 그 중 "OpenLongCoT-Pretrain" 데이터 세트에는 100,000개가 넘는 긴 사고 체인 데이터가 포함되어 있습니다. 각 데이터 조각에는 사고 내용, 채점 결과, 문제 설명, 그래픽 좌표, 계산 프로세스 및 결론을 포함한 완전한 수학적 문제 추론 프로세스가 포함되어 있습니다. 추론 전체 추론 링크와 각 추론 단계의 비평 및 검증 내용은 추론 과정에 대한 평가 및 지침을 제공합니다. 이 데이터 세트에 대한 사전 훈련을 계속한 후 모델은 o1과 같은 긴 사고 체인 프로세스를 읽고 출력할 수 있습니다.
프로젝트 이름은 LLaMA-O1이지만 현재 공식적으로 제공되는 사전 학습 모델은 Google의 Gemma2를 기반으로 합니다. 사전 훈련된 모델을 기반으로 개발자는 계속해서 강화 학습 훈련을 수행할 수 있습니다. 학습 프로세스에는 몬테카를로 트리 검색을 사용하여 경험을 생성하고, 우선순위 경험 재생 버퍼에 경험을 저장하고, 모델 매개변수 및 경험 우선순위를 업데이트하는 단계가 포함됩니다. 매개변수의 효율적인 미세 조정을 위해 LoRA를 사용하고, 전략 최적화 방법으로 PPO 알고리즘을 사용하고, GAE 알고리즘을 구현하여 이점 함수를 계산하고, 우선순위 경험 재생을 사용하여 훈련을 개선하는 등 일부 핵심 기술이 훈련 코드에도 사용됩니다. 능률.
LLaMA-O1 코드가 SimpleBerry라는 GitHub 계정으로 공개되었다는 점은 주목할 가치가 있습니다. 해당 계정은 특별한 소개가 없으며 상대적으로 신비한 것으로 보입니다. SimpleBerry와 관련된 다른 계정과 공식 홈페이지 정보를 보면 그 성격이 연구실이라는 것만 알 수 있을 뿐, 연구 방향에 대한 정보는 더 이상 공개되지 않습니다.
LLaMA-O1 외에도 공개 진행 중인 또 다른 o1 복제 프로젝트는 Shanghai Jiao Tong University 팀의 O1-Journey입니다. 팀은 10월 초에 첫 번째 진행 보고서를 발표하여 혁신적인 Journey Learning 패러다임과 검색 및 학습을 수학적 추론에 성공적으로 통합한 첫 번째 모델을 소개했습니다. O1-Journey의 핵심 개발팀은 주로 Shanghai Jiao Tong University의 3학년 및 4학년 학부생과 Shanghai Jiao Tong University의 GAIR 연구소(생성 인공 지능 연구 실험실)의 1학년 박사 과정 학생들로 구성되어 있습니다. Liu Pengfei와 Yao Ban, Shanghai Jiao Tong University의 부교수이자 Sloan Award 수상자 Li Yuanzhi 등이 있습니다.
논문 주소: https://arxiv.org/pdf/2410.02884
https://arxiv.org/pdf/2406.07394
LLaMA 버전 o1 프로젝트의 오픈 소스는 AI 수학적 문제 해결 분야에 새로운 활력을 불어넣고 개발자에게 귀중한 학습 및 연구 리소스를 제공했습니다. 인공지능 분야의 지속적인 발전을 촉진하기 위해 앞으로 더 유사한 오픈소스 프로젝트가 등장하기를 기대합니다!