알리바바 인터내셔널 AI 팀이 최근 공개한 Marco-o1 추론 모델은 개방형 문제 해결에 중점을 두고 표준 답변 필드에 국한된 기존 모델의 한계를 극복하며 복잡하고 정량화하기 어려운 작업을 처리할 수 있는 잠재력을 보여줍니다. . Downcodes의 편집자는 이 모델의 특성, 응용 프로그램 및 사용법은 물론 인공 지능 분야에 가져오는 혁신에 대한 심층적인 이해를 제공합니다.
Alibaba International AI 팀은 최근 Marco-o1이라는 새로운 추론 모델을 출시했습니다. 이는 개방형 문제 해결에 특별한 관심을 기울이고 프로그래밍, 수학 등 표준 답변이 있는 주제 영역에 국한되지 않습니다. 연구팀은 이러한 모델이 정량화하기 어렵고 명확한 보상이 부족한 영역에 효과적으로 일반화될 수 있는지 여부를 조사하는 데 전념하고 있습니다.
Marco-o1 모델의 특징으로는 미세 조정을 위한 초장기 CoT 데이터 사용, 솔루션 공간 확장을 위한 MCTS 사용, 세분화된 솔루션 공간 확장 등이 있습니다. 이 모델은 셀프 플레이+MCTS를 사용하여 반영 및 수정 기능을 갖춘 매우 긴 CoT 데이터 배치를 구성하고 다른 오픈 소스 데이터와 함께 학습됩니다. 또한 연구팀은 모델의 솔루션 공간을 더욱 확장하고 모델이 더 나은 답변을 출력할 수 있도록 유도하기 위해 mini-Step도 정의했습니다.
번역 작업에서 Marco-o1 모델은 길고 어려운 문장의 번역을 처리하는 능력을 보여주었습니다. 추론 시간 확장이 기계 번역 작업에 적용된 것은 이번이 처음입니다. 연구팀은 일부 CoT 데이터와 최신 모델을 오픈소스화했으며 앞으로 더 많은 데이터와 모델을 오픈소스화할 계획입니다.
모델은 추론할 때 반응에 대해 깊이 생각하게 됩니다. 예를 들어, 'strawberry'라는 단어의 'r' 수를 출력할 때, 모델은 단어의 각 문자를 점차 분해하여 비교하고 최종적으로 결과를 올바르게 출력합니다. 기계 번역 분야에서는 모델이 추론 링크를 통해 어려운 점을 정확하게 식별하고 이를 단어별로 번역하여 전반적인 번역 정확도를 향상시킵니다.
연구팀은 다른 분야에서도 이를 시도하여 다른 일반적인 실제 문제를 해결할 수 있는 모델의 능력을 입증했습니다. Marco-o1의 전체 구조는 셀프 플레이+MCTS를 사용하여 반영 및 수정 기능을 갖춘 매우 긴 CoT 데이터 배치를 구축하고 다른 오픈 소스 데이터와 함께 훈련합니다. 또한 연구팀은 모델의 명령 준수 기능을 개선하기 위해 MarcoPolo 제품군의 일부 명령 준수 데이터 세트를 통합했습니다.
사용법 측면에서 연구팀은 추론 코드와 미세 조정 코드를 제공합니다. 사용자는 쉽게 모델과 토크나이저를 로드하고 채팅을 시작하거나 모델을 미세 조정할 수 있습니다. 또한 모델은 ModelScope의 GGUF 버전에서 직접 실행될 수도 있으므로 더 빠르게 경험할 수 있습니다.
Marco-o1 모델의 출시는 추론 모델 분야에서 Alibaba의 국제 AI 팀이 취한 중요한 조치를 의미하며 공개 문제를 해결하기 위한 새로운 아이디어와 도구를 제공합니다.
모델범위:
https://modelscope.cn/models/AIDC-AI/Marco-o1
Arxiv:
https://arxiv.org/abs/2411.14405
Github:
https://github.com/AIDC-AI/Marco-o1
포옹하는 얼굴:
https://huggingface.co/AIDC-AI/Marco-o1
Marco-o1 모델의 오픈 소스는 연구원과 개발자에게 귀중한 리소스를 제공하며, 앞으로 이 모델을 기반으로 하는 더욱 혁신적인 애플리케이션이 등장하여 인공 지능 기술의 지속적인 개발을 촉진할 것으로 믿어집니다. Marco-o1에 대한 더 많은 적용 사례와 연구 결과를 기대합니다!