NVIDIA는 최근 Nemotron-4-Minitron-4B와 Nemotron-4-Minitron-8B의 두 가지 새로운 모델을 열었으며, 이는 훈련 효율에 상당한 돌파구를 만들었습니다. 구조화 된 가지 치기 및 지식 증류 기술을 통해이 두 모델의 훈련에 필요한 데이터는 40 배나 감소했으며 컴퓨팅 전력 비용은 1.8 배나 줄어 듭니다. 이는 AI 기술의 도약 일뿐 만 아니라 AI 분야에 새로운 가능성을 제공하며 AI 커뮤니티에 귀중한 자원을 제공했습니다.
전통적인 AI 모델 교육에는 많은 데이터와 구성이 필요합니다. 그러나 Nvidia는 구조화 된 가지 치기 및 지식 증류를 사용 하여이 수요를 크게 줄였습니다. 구체적으로, 처음부터 교육과 비교할 때, 새로운 모델에 필요한 교육 토큰 데이터는 40 배 감소했으며 컴퓨팅 전력 비용은 1.8 배를 절약했습니다. 이 업적 뒤에는 기존 모델 LLAMA-3.18B에 대한 Nvidia의 심층적 인 최적화가 있습니다.
구조적 가지 치기는 중요하지 않은 가중치를 제거하여 모델 구조를 단순화하는 신경망 압축 기술입니다. 랜덤 분지와는 달리, 구조화 된 가지는 전체 뉴런 또는주의 헤드를 제거함으로써 중량 매트릭스의 구조를 유지합니다.
지식 증류는 학생 모델의 교사 모델을 모방하여 성과를 향상시키는 방법입니다. NVIDIA의 관행에서 로이트 기반 지식 증류를 통해 학생 모델은 교사 모델에 대한 깊은 이해를 배울 수 있으며 교육 데이터가 크게 줄어든 경우에도 우수한 성능을 유지할 수 있습니다.
구조화 된 가지 및 지식 증류로 훈련 된 Minitron-4B 및 Minitron-8B 모델은 MMLU에서 16%증가했으며 성능은 Mistral7b, Gemma7b 및 Llama-38b와 같은 잘 알려진 모델과 비교할 수 있습니다. 이 성과는 NVIDIA 방법의 효과를 입증하고 대규모 AI 모델의 교육 및 배치를위한 새로운 가능성을 제공합니다.
NVIDIA의 오픈 소스 측정은 AI 기술에서의 리더십 위치를 보여줄뿐만 아니라 AI 커뮤니티에 귀중한 자원을 제공합니다. AI 기술의 지속적인 발전으로 인해 AI가보다 효율적이고 더 똑똑한 방향으로 개발할 수있는보다 혁신적인 방법을 기대합니다.
모델 주소 :
https://huggingface.co/nvidia/nemotron-4-minitron-4b-base
https://huggingface.co/nvidia/nemotron-4-minitron-8b-base
NVIDIA 오픈 소스의 두 가지 주요 모델은 AI 필드의 효율성 개선을위한 새로운 아이디어를 제공하며 미래의 AI 모델 교육 비용의 추가 감소와 응용 범위의 확장을 나타냅니다. 이를 기반으로보다 혁신적인 응용 프로그램을 기대합니다.