NVIDIA выпускает «волшебную палочку звука» Fugatto: можно воспроизводить музыку словами! - Статьи об ИИ

Автор：Eve Cole Время обновления：2025-01-29 16:32:01

NVIDIA выпустила потрясающую аудиомодель Fugatto с искусственным интеллектом, которая подобна волшебной палочке, предоставляя пользователям возможность управлять звуками с помощью текста. Fugatto — это больше, чем просто генератор звука. Он может смешивать музыку, речь и различные звуки, а также понимать сложные текстовые инструкции для беспрецедентного создания и манипулирования звуком. Эта модель имеет широкий спектр возможностей применения: от создания музыки до дублирования рекламы, от изучения языка до разработки игр — Fugatto может обеспечить мощную поддержку, значительно повышая эффективность и креативность. Его мощные возможности обработки нескольких языков и акцентов, а также точный контроль деталей звука демонстрируют его революционную техническую мощь.

Вы все еще помните сцену из научно-фантастического фильма, где главный герой взмахивает волшебной палочкой и может управлять звуком по своему усмотрению. Теперь эта волшебная способность больше не является фантазией! Последняя модель искусственного интеллекта NVIDIA Fugatto похожа на «звуковую волшебную палочку»? , позволяющий пользователям управлять музыкой, звуками и голосами, используя только текст, и создавать множество замечательных звуковых эффектов.

Fugatto, полное название которого — «Foundational Generative Audio Transformer Opus1», представляет собой модель обработки звука, основанную на технологии генеративного искусственного интеллекта. В отличие от других моделей искусственного интеллекта, которые могут только создавать музыку или изменять речь, Fugatto обладает более мощной способностью генерировать или преобразовывать любую смесь музыки, речи и звуков, а также понимать и выполнять инструкции, вводимые пользователями через текстовые и аудиофайлы.

Мощные функции Fugatto поразили пользователей из всех слоев общества, включая музыкальных продюсеров, рекламные агентства, разработчиков средств изучения языков и разработчиков игр. Музыкальные продюсеры могут использовать его, чтобы быстро экспериментировать с различными музыкальными стилями, вокалом и инструментами и даже добавлять эффекты или улучшать качество звука к существующим песням. Рекламные компании могут использовать его, чтобы придать озвучке рекламы разные акценты и эмоции, а также легко продвигать рекламу в разных регионах и целевых группах. Разработчики инструментов для изучения языка могут использовать Fugatto для преобразования содержания курса в любой голос, который хочет пользователь, например, члена семьи или друга, чтобы сделать обучение более персонализированным. Разработчики игр могут использовать Fugatto для изменения игровых звуковых материалов в реальном времени в зависимости от хода игры или создания новых игровых звуковых эффектов на основе текстовых команд и аудиовхода.

Магия Фугатто заключается в его способности понимать и генерировать звуки, как человек. Он может не только выполнять конкретные инструкции пользователя, но и создавать новые звуки, которые раньше никогда не слышались. Например, труба может издавать звук собаки, а саксофон — звук кошки. Пока пользователь может описать это, Фугатто может его создать.

音频声波

Еще одна новаторская способность Fugatto — это способность комбинировать инструкции, изученные отдельно во время тренировки, для получения более сложных эффектов. Например, пользователи могут попросить его создать голос с французским акцентом и грустными эмоциями. Что еще более удивительно, так это то, что Fugatto также позволяет пользователям вносить небольшие изменения в инструкции, например, контролировать интенсивность акцента или интенсивность печали, позволяя пользователям творить как художник.

Фугатто также может генерировать звуки, которые меняются со временем, например, приближающийся издалека шторм и нарастающий гром, а затем медленно затухающий вдали. Пользователи могут точно контролировать процесс изменения звука и создавать разнообразные яркие звуковые эффекты.

Fugatto — это совместная работа исследователей со всего мира и членов команды из таких стран, как Индия, Бразилия, Китай, Иордания и Южная Корея. Их разнообразное прошлое дает Fugatto больше возможностей для работы с разными акцентами и языками.

Рождение Fugatto стало кульминацией многолетних исследований NVIDIA в области моделирования речи, кодирования звука и понимания звука. Он использует 2,5 миллиарда параметров и обучается на кластере систем NVIDIA DGX, оснащенных 32 графическими процессорами NVIDIA H100Tensor Core.

Появление Fugatto знаменует собой новую эру в технологиях обработки звука. Это принесет неограниченные возможности в различные области, такие как музыка, кино, игры, образование и т. д. Будем с нетерпением ждать, когда он создаст еще больше удивительных слуховых праздников!

Официальный блог: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

Появление Fugatto — это не только технологический прогресс, но и бесконечное расширение творчества. Он предоставляет художникам и разработчикам беспрецедентные творческие инструменты и предвещает безграничные возможности будущих аудиотехнологий. Давайте подождем и посмотрим, как Fugatto изменит наш слуховой мир.