Производство NVIDIA! Аудиомодель Fugatto с искусственным интеллектом: ввод текста и звука для создания музыки и звуковых эффектов - статья об искусственном интеллекте

Автор：Eve Cole Время обновления：2025-01-25 11:00:03

NVIDIA выпустила революционную модель искусственного интеллекта для генерации и обработки звука под названием Fugatto, которая имеет 2,5 миллиарда параметров и призвана обеспечить беспрецедентную гибкость и креативность в области создания музыки и звука. Fugatto сочетает в себе текстовые подсказки и передовую технологию синтеза звука, поддерживает ввод текста и звука, преодолевает ограничения традиционных моделей генерации звука, позволяет пользователям создавать и изменять в реальном времени, а также генерировать множество новых звуковых эффектов. Инновационная технология Composable Audio Representation Transformation (ComposableART) дает пользователям беспрецедентный контроль и точный контроль над звуком.

В области создания музыки и звука сочетание технологий и творчества всегда сталкивалось со многими проблемами. Существующие модели ИИ часто хороши только для конкретных задач и не обладают широкой адаптивностью, что ограничивает вспомогательную роль ИИ в производстве музыки. Чтобы ИИ мог лучше обслуживать производство музыки и аудио, срочно необходима универсальная модель, способная гибко реагировать на различные творческие потребности. С этой целью NVIDIA запустила Fugatto, модель генерации и обработки звука с 2,5 миллиардами параметров.

Fugatto разработан, чтобы предоставить очень гибкое пространство для голосового ввода и творческих экспериментов за счет сочетания текстовых подсказок с расширенными возможностями синтеза звука. Например, он может превратить мелодию фортепиано в вокал или придать трубе неожиданный звук.

Fugatto не только поддерживает ввод текста, но также поддерживает дополнительный аудиовход, преодолевая ограничения традиционных моделей генерации звука, позволяя художникам и разработчикам создавать и изменять в реальном времени, а также плавно генерировать новые типы звуков.

С технической стороны Fugatto использует инновационный подход к генерации данных, выходящий за рамки традиционного контролируемого обучения. Его обучение основано не только на обычных наборах данных, но и на специально сгенерированных наборах данных, что создает широкий спектр задач по аудио и преобразованию. Кроме того, Fugatto использует большие языковые модели (LLM) для расширения возможностей генерации инструкций и лучшего понимания взаимосвязи между звуковыми и текстовыми подсказками.

Важным нововведением является преобразование составного представления звука (ComposableART), метод, используемый во время вывода для гибкого объединения, интерполяции или отрицания различных инструкций генерации звука. ComposableART дает пользователям больший контроль над процессом синтеза звука, позволяя им точно ориентироваться в звуковой палитре Fugatto для создания уникальных звуковых явлений.

Архитектура Fugatto основана на улучшенной модели Transformer и использует определенные модификации, такие как нормализация адаптивного уровня, для обеспечения согласованности при множественных входных условиях и поддержки инструкций сложной комбинации. Предварительные тесты показывают, что Fugatto хорошо справляется с обычными тестами, особенно в синтезе и преобразовании звука, демонстрируя более высокие возможности, чем другие профессиональные модели.

Запуск Fugatto знаменует собой важный прогресс в области искусственного интеллекта для генерации звука, преодолевая традиционные ограничения и предоставляя мощный и гибкий инструмент для творческого аудиопроизводства. Его потенциальное применение в различных областях, таких как музыка, игры, развлечения и образование, означает, что технология искусственного интеллекта будет продолжать играть важную роль в содействии человеческому творчеству.

Официальный блог: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

Документ: https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf.

Выделять:

Fugatto — это аудиомодель искусственного интеллекта, выпущенная NVIDIA. Она имеет 2,5 миллиарда параметров, поддерживает ввод текста и звука, а также помогает создавать музыку и звук.

Используя инновационные методы генерации данных и комбинируемую технологию преобразования аудиопредставления, пользователи могут гибко генерировать и изменять звуки.

Предварительные тесты показывают, что Fugatto превосходит несколько профессиональных моделей в синтезе и преобразовании звука, демонстрируя свой мощный творческий потенциал.

В целом, Fugatto с его мощными и гибкими функциями открывает новые возможности в области создания музыки и звукового дизайна, указывая на то, что применение искусственного интеллекта в творческой индустрии будет более обширным и глубоким. Мы с нетерпением ждем, когда Fugatto преподнесет нам еще больше сюрпризов в будущем.