NVIDIA는 여러 벤치마크에서 우수한 성능을 발휘하며 동일한 규모의 경쟁사를 능가하는 150억 개의 매개변수 모델인 새로운 대규모 언어 모델 Nemotron-4를 출시했습니다. 이 모델은 표준 순수 디코더 Transformer 아키텍처를 기반으로 하며 8조 토큰이 포함된 다중 언어 및 인코딩 데이터 세트를 사용하여 훈련되었습니다. 강력한 성능은 상식 추론, 수학 및 코드, 다국어 분류 및 생성, 기계 번역을 포괄합니다.
NVIDIA 팀은 150억 개의 매개변수로 구성된 새로운 모델인 Nemotron-4를 출시했습니다. Nemotron-4는 영어, 다국어 및 코딩 작업에서 우수한 성능을 발휘하고 여러 평가 벤치마크에서 동일한 매개변수 크기의 모델을 능가합니다. 표준 순수 디코더 Transformer 아키텍처를 사용하는 훈련 데이터 세트에는 여러 언어와 인코딩된 텍스트를 포괄하는 8조 개의 토큰이 포함되어 있습니다. Nemotron-415B는 상식추론, 수학과 코딩, 다국어 분류 및 생성, 기계번역 등 다양한 업무 영역에서 탁월한 성능을 발휘합니다. 저자는 Nemotron-415B가 단일 NVIDIA A100 또는 H100 GPU에서 실행할 수 있는 최고의 범용 대형 모델이 될 것으로 예상하고 있습니다.
Nemotron-4의 등장은 대규모 언어 모델 분야에서 NVIDIA의 지속적인 기술 혁신을 보여줍니다. 단일 GPU 작동의 이점으로 인해 해당 분야에서의 추가 개발 및 적용도 기대해 볼 가치가 있습니다. 미래의 인공지능.