Nous Research는 전 세계에 분산된 기계를 사용하여 15억 매개변수의 LLM(대형 언어 모델)을 사전 학습하는 획기적인 실험을 수행하고 있습니다. 이 실험은 기존의 중앙 집중식 훈련 모델을 뒤집고, 비용이 많이 들고 에너지를 소비하는 데이터 센터를 피하고, 훈련 프로세스를 웹사이트 distro.nousresearch.com을 통해 실시간으로 방송하여 모델 성능과 하드웨어 위치 지도를 시연합니다. 이러한 움직임은 훈련 비용을 절감할 뿐만 아니라, 더 중요한 것은 대규모 언어 모델의 진입 장벽을 낮추어 더 많은 소규모 팀과 개인이 생성 AI 연구 및 개발에 참여할 수 있게 될 것으로 예상됩니다.
빠르게 발전하는 생성 AI 분야에서 Nous 연구팀은 독특한 실험을 수행하고 있습니다. 그들은 전 세계에 분산된 기계를 사용하여 15억 매개변수의 대규모 언어 모델(LLM)을 사전 훈련하고 있습니다. 비싸고 전력 소모가 많은 데이터 센터 또는 슈퍼 클러스터에서의 개발.
Nous Research는 또한 전용 웹사이트 distro.nousresearch.com에서 사전 훈련 과정을 실시간으로 방송하여 다양한 평가 벤치마크에서 모델의 성능을 실시간으로 보여주고, 훈련에 참여하는 하드웨어 위치에 대한 지도를 제공합니다. 미국과 유럽. 본 글이 게재된 시점을 기준으로 사전 훈련 남은 시간은 약 57시간(즉, 2.3일)이며, 훈련 진행률이 75% 이상 완료되었습니다.
사전 훈련은 LLM 훈련의 첫 번째이자 가장 기본적인 단계로, 언어의 통계적 속성과 구조를 배우기 위해 많은 양의 텍스트 데이터를 훈련하는 것을 포함합니다. 이 단계에서 모델은 광범위한 텍스트 데이터 세트를 처리하여 언어 패턴, 구문 및 단어 간의 문맥 관계를 포착합니다. 이 프로세스를 통해 모델은 언어에 대한 폭넓은 이해, 일관된 텍스트 생성 능력, 다양한 언어 관련 작업 수행 능력을 얻을 수 있습니다. 사전 훈련 후에는 특정 작업이나 도메인에 맞게 모델을 미세 조정해야 합니다.
이 계획이 성공한다면 Nous Research는 값비싼 슈퍼 클러스터나 저지연 전송 없이도 첨단 LLM을 훈련할 수 있음을 입증하여 분산 AI 훈련의 새로운 시대를 열게 될 것입니다. 이러한 오픈 소스 교육 접근 방식은 생성 AI의 역학 관계를 변화시켜 이 분야에서 소규모 팀과 기업이 아닌 행위자의 경쟁력을 높일 수 있습니다.
Nous에서 사용하는 신기술은 Nous DisTrO(Distributed Training Over-the-Internet)라고 하며 사전 훈련 과정에서 GPU 간의 통신 대역폭 요구 사항을 줄이도록 설계되었습니다. Nous Research의 최신 릴리스에 따르면 DisTrO는 통신 요구 사항을 최대 10,000배까지 줄여 더 느리고 저렴한 인터넷 연결에서도 경쟁력 있는 수렴 속도와 손실 곡선을 유지할 수 있습니다.
또한 DisTrO의 핵심 혁신은 모델 성능에 영향을 주지 않고 GPU 간에 교환되는 데이터 양을 효과적으로 압축하는 것입니다. 이 기술은 교육 성능을 유지하면서 GPU 간 통신 요구 사항을 크게 줄이는 것을 목표로 하는 이전 DeMo(Decoupled Momentum Optimization) 알고리즘을 기반으로 구축되었습니다.
하드웨어 측면에서 Nous Research의 사전 훈련 프로세스는 Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud 및 Andromeda Cluster와 같은 잘 알려진 많은 파트너의 지원을 받으며, 실제 분산 환경에서 DisTrO를 완벽하게 테스트하는 데 필요한 이기종 하드웨어를 공동으로 제공합니다. 환경에서의 능력.
블로그 입구: https://nousresearch.com/
누스리서치의 이번 실험은 기술적으로 획기적인 발전을 이루었을 뿐만 아니라, 더 중요한 것은 전 세계 AI 연구자들에게 새로운 아이디어와 가능성을 제공하며 AI 훈련 모델의 변화를 예고했다는 점이다. 앞으로는 아마도 더 유사한 분산 교육 프로젝트가 등장하여 AI 기술의 진입 문턱을 더욱 낮추고 AI 분야의 활발한 발전을 촉진할 것입니다.