英伟达发布了其全新的大型语言模型Nemotron-4,这是一个拥有150亿参数的模型,在多个基准测试中表现优异,超越了同等规模的竞争对手。该模型基于标准的纯解码器Transformer架构,并利用了一个包含8万亿个token的多语言和编码数据集进行训练。其强大的性能涵盖了常识推理、数学和代码、多语言分类和生成以及机器翻译等多个领域。
英伟达团队推出了150亿参数的全新模型Nemotron-4,该模型在英语、多语言和编码任务方面表现出色,并在多个评估基准上击败同等参数规模的模型。采用标准的纯解码器Transformer架构,训练数据集包含8万亿个token,涵盖多语言和编码文本。Nemotron-415B在各种任务领域的性能均优秀,包括常识推理、数学和代码、多语言分类和生成、机器翻译等。作者认为Nemotron-415B有望成为能在单个英伟达A100或H100GPU上运行的最佳通用大模型。
Nemotron-4的出现,展现了英伟达在大型语言模型领域的持续技术突破,其在单GPU运行的优势也使其具有广泛的应用前景,值得期待其在未来人工智能领域的进一步发展和应用。