Nvidia недавно открыла две новые модели: Nemotron-4-Minitron-4B и Nemotron-4-Minitron-8B, что совершило значительные прорывы в эффективности тренировок. Благодаря структурированной обрезке и технологии дистилляции знаний данные, необходимые для обучения этих двух моделей, были снижены на 40 раз, а стоимость вычислительной мощности была снижена на 1,8 раза. Это не только представляет собой скачок в технологии ИИ, но и приносит новые возможности для области ИИ и внесло ценные ресурсы для сообщества ИИ.
Традиционное обучение модели ИИ требует много данных и композиции. Тем не менее, NVIDIA значительно снизила эту потребность, используя структурированную обрезку и перегородку знаний. В частности, по сравнению с обучением с нуля данные учебного токена, необходимые для новой модели, были снижены в 40 раз, а стоимость вычислительной мощности сэкономила 1,8 раза. За этим достижением находится глубокая оптимизация NVIDIA существующей модели Llama-3.18b.
Структурная обрезка - это технология сжатия нейронной сети, которая упрощает структуру модели, удаляя неважные веса. В отличие от случайных ветвей, структурированные ветви сохраняют структуру матрицы веса.
Растилляция знаний - это способ повысить производительность, имитируя модель для учителей. В практике NVIDIA, посредством дистилляции знаний на основе логита, модель студента может изучить глубокое понимание модели учителя, и даже если она значительно уменьшит учебные данные, она может поддерживать отличную производительность.
Модели Minitron-4B и Minitron-8B, обученные структурированными ветвями и дистилляцией знаний, увеличились на 16%на MMLU, а производительность может быть сопоставима с известными моделями, такими как Misstral7B, Gemma7b и Llama-38b. Это достижение доказывает эффективность метода NVIDIA, а также предоставляет новые возможности для обучения и развертывания крупных моделей ИИ.
Эта мера NVIDIA с открытым исходным кодом не только показывает свою руководящую позицию в технологии искусственного интеллекта, но и привносит ценные ресурсы для сообщества ИИ. Благодаря непрерывному прогрессу технологии ИИ, мы с нетерпением ждем более инновационных методов продвижения ИИ для развития в более эффективном и умном направлении.
Адрес модели:
https://huggingface.co/nvidia/nemotron-4-minitron-4b-base
https://huggingface.co/nvidia/nemotron-4-minitron-8b-base
Две основные модели NVIDIA с открытым исходным кодом предоставляют новые идеи для повышения эффективности поля ИИ, а также указывают на дальнейшее снижение будущих затрат на обучение модели ИИ и дальнейшее расширение объема применения. С нетерпением жду более инновационных приложений на основе этого.