Fugatto, последняя модель искусственного интеллекта, выпущенная NVIDIA, кажется, обладает волшебной силой и полностью революционизирует технологию обработки звука. Он может не только генерировать смесь музыки, голоса и звука, но также понимать и выполнять инструкции, вводимые пользователями через текстовые и аудиофайлы, что позволяет создавать множество замечательных звуковых эффектов. Редактор Downcodes поможет вам глубже понять эту революционную модель искусственного интеллекта и увидеть, как она может воплотить сцены из научно-фантастических фильмов в реальность.
Fugatto, полное название которого — «Foundational Generative Audio Transformer Opus1», представляет собой модель обработки звука, основанную на технологии генеративного искусственного интеллекта. В отличие от других моделей искусственного интеллекта, которые могут только создавать музыку или изменять речь, Fugatto обладает более мощной способностью генерировать или преобразовывать любую смесь музыки, речи и звуков, а также понимать и выполнять инструкции, вводимые пользователями через текстовые и аудиофайлы.
Мощные возможности Fugatto поразили пользователей из всех слоев общества, включая музыкальных продюсеров, рекламные агентства, разработчиков средств изучения языков и разработчиков игр. Музыкальные продюсеры могут использовать его, чтобы быстро экспериментировать с различными музыкальными стилями, вокалом и инструментами и даже добавлять эффекты или улучшать качество звука к существующим песням. Рекламные компании могут использовать его, чтобы придать озвучке рекламы разные акценты и эмоции, а также легко продвигать рекламу в разных регионах и целевых группах. Разработчики инструментов для изучения языка могут использовать Fugatto для преобразования содержания курса в любой голос, который хочет пользователь, например, члена семьи или друга, чтобы сделать обучение более персонализированным. Разработчики игр могут использовать Fugatto для изменения игровых звуковых материалов в реальном времени в зависимости от хода игры или создания новых игровых звуковых эффектов на основе текстовых команд и аудиовхода.
Магия Фугатто заключается в его способности понимать и генерировать звуки так же, как человек. Он может не только выполнять конкретные инструкции пользователя, но и создавать новые звуки, которые раньше никогда не слышались. Например, труба может издавать звук собаки, а саксофон — звук кошки. Пока пользователь может описать это, Фугатто может создать его.
Примечание к источнику изображения: изображение генерируется искусственным интеллектом и разрешено поставщиком услуг Midjourney.
Еще одна новаторская способность Fugatto — это способность комбинировать инструкции, изученные отдельно во время тренировки, для получения более сложных эффектов. Например, пользователи могут попросить его создать голос с французским акцентом и грустными эмоциями. Что еще более удивительно, так это то, что Fugatto также позволяет пользователям вносить небольшие изменения в инструкции, например, контролировать интенсивность акцента или интенсивность печали, позволяя пользователям творить как художник.
Фугатто также может генерировать звуки, которые меняются со временем, например, приближающийся издалека шторм и нарастающий гром, а затем медленно затухающий вдали. Пользователи могут точно контролировать процесс изменения звука и создавать разнообразные яркие звуковые эффекты.
Fugatto — это совместная работа исследователей со всего мира и членов команды из таких стран, как Индия, Бразилия, Китай, Иордания и Южная Корея. Их разнообразное прошлое дает Fugatto больше возможностей для работы с разными акцентами и языками.
Рождение Fugatto стало кульминацией многолетних исследований NVIDIA в области моделирования речи, кодирования звука и понимания звука. Он использует 2,5 миллиарда параметров и обучается на кластере систем NVIDIA DGX, оснащенных 32 графическими процессорами NVIDIA H100Tensor Core.
Появление Fugatto знаменует собой новую эру в технологиях обработки звука. Это принесет неограниченные возможности в различные области, такие как музыка, кино, игры, образование и т. д. Будем с нетерпением ждать, когда он создаст еще больше удивительных слуховых праздников!
Официальный блог: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
Появление Fugatto знаменует огромный потенциал искусственного интеллекта в сфере аудио. Его мощные функции и удобные методы управления, несомненно, принесут беспрецедентные инновации во все сферы жизни. Давайте подождем и посмотрим, как Fugatto продолжит формировать наш слуховой мир в будущем!