英伟达最强通用大模型Nemotron-4登场！15B击败62B，目标单张A100/H100可跑

作者：Eve Cole 更新时间：2025-01-05 13:16:01

英伟达发布了其全新的大型语言模型Nemotron-4，这是一个拥有150亿参数的模型，在多个基准测试中表现优异，超越了同等规模的竞争对手。该模型基于标准的纯解码器Transformer架构，并利用了一个包含8万亿个token的多语言和编码数据集进行训练。其强大的性能涵盖了常识推理、数学和代码、多语言分类和生成以及机器翻译等多个领域。

英伟达团队推出了150亿参数的全新模型Nemotron-4，该模型在英语、多语言和编码任务方面表现出色，并在多个评估基准上击败同等参数规模的模型。采用标准的纯解码器Transformer架构，训练数据集包含8万亿个token，涵盖多语言和编码文本。Nemotron-415B在各种任务领域的性能均优秀，包括常识推理、数学和代码、多语言分类和生成、机器翻译等。作者认为Nemotron-415B有望成为能在单个英伟达A100或H100GPU上运行的最佳通用大模型。

Nemotron-4的出现，展现了英伟达在大型语言模型领域的持续技术突破，其在单GPU运行的优势也使其具有广泛的应用前景，值得期待其在未来人工智能领域的进一步发展和应用。