英偉達發布了其全新的大型語言模型Nemotron-4,這是一個擁有150億參數的模型,在多個基準測試中表現優異,超越了同等規模的競爭對手。該模型基於標準的純解碼器Transformer架構,並利用了一個包含8兆個token的多語言和編碼資料集進行訓練。其強大的性能涵蓋了常識推理、數學和程式碼、多語言分類和生成以及機器翻譯等多個領域。
英偉達團隊推出了150億參數的全新模型Nemotron-4,該模型在英語、多語言和編碼任務方面表現出色,並在多個評估基準上擊敗同等參數規模的模型。採用標準的純解碼器Transformer架構,訓練資料集包含8兆個token,涵蓋多語言和編碼文字。 Nemotron-415B在各種任務領域的表現均優秀,包括常識推理、數學和代碼、多語言分類和生成、機器翻譯等。作者認為Nemotron-415B有望成為能在單一英偉達A100或H100GPU上運行的最佳通用大模型。
Nemotron-4的出現,展現了英偉達在大型語言模型領域的持續技術突破,其在單GPU運行的優勢也使其具有廣泛的應用前景,值得期待其在未來人工智慧領域的進一步發展和應用。