NVIDIA выпустила свою новую крупномасштабную языковую модель Nemotron-4, модель с 15 миллиардами параметров, которая хорошо работает в нескольких тестах, превосходя конкурентов того же размера. Модель основана на стандартной архитектуре чистого декодера Transformer и обучается с использованием многоязычного набора данных кодирования, содержащего 8 триллионов токенов. Его мощные возможности охватывают здравый смысл, математику и кодирование, многоязычную классификацию и генерацию, а также машинный перевод.
Команда NVIDIA выпустила новую модель Nemotron-4 с 15 миллиардами параметров, которая хорошо справляется с английскими, многоязычными задачами и задачами кодирования, а также превосходит модели с тем же размером параметров в нескольких оценочных тестах. Используя стандартную архитектуру чистого декодера Transformer, набор обучающих данных содержит 8 триллионов токенов, охватывающих несколько языков и закодированных текстов. Nemotron-415B демонстрирует отличные характеристики в различных областях задач, включая здравый смысл, математику и кодирование, многоязычную классификацию и генерацию, машинный перевод и т. д. Автор полагает, что Nemotron-415B, как ожидается, станет лучшей большой моделью общего назначения, способной работать на одном графическом процессоре NVIDIA A100 или H100.
Появление Nemotron-4 демонстрирует продолжающиеся технологические прорывы NVIDIA в области крупномасштабных языковых моделей. Его преимущества в работе с одним графическим процессором также открывают для него широкие перспективы применения. Стоит ожидать его дальнейшего развития и применения в этой области. искусственного интеллекта в будущем.