Редактор Downcodes сообщает: Университет Джона Хопкинса и лаборатория искусственного интеллекта Tencent совместно разработали революционную модель преобразования текста в аудио под названием EzAudio. Ее эффективные и высококачественные возможности преобразования звука знаменуют собой большой прогресс в области искусственного интеллекта и аудиотехнологий. EzAudio использует инновационную технологию скрытого пространства звуковых сигналов в сочетании с передовыми технологиями, такими как AdaLN-SOLA, чтобы превзойти существующие модели с открытым исходным кодом как по объективным, так и по субъективным оценкам. Открытый исходный код модели, набор данных и контрольные точки модели становятся общедоступными для стимулирования дальнейших исследований и применения.
EzAudio работает, используя скрытое пространство звуковых сигналов, а не традиционные спектрограммы, инновация, которая позволяет ему работать с высоким временным разрешением без необходимости использования дополнительного нейронного вокодера.
Архитектура EzAudio, получившая название EzAudio-DiT (Diffusion Transformer), использует ряд технологических инноваций для повышения производительности и эффективности. К ним относятся новая технология нормализации адаптивного уровня AdaLN-SOLA, соединения с длинными переходами и передовые технологии кодирования положения, такие как RoPE (внедрение повернутого положения).
Исследователи говорят, что аудиосэмплы, созданные EzAudio, настолько реалистичны, что как объективные, так и субъективные оценки превосходят существующие модели с открытым исходным кодом.
В настоящее время рынок генерации звука с помощью искусственного интеллекта быстро растет. Известные компании, такие как ElevenLabs, недавно запустили iOS-приложение для преобразования текста в речь, продемонстрировав большой интерес потребителей к аудиоинструментам с искусственным интеллектом. В то же время технологические гиганты, такие как Microsoft и Google, также увеличивают инвестиции в технологию моделирования голоса с помощью искусственного интеллекта.
По прогнозам Gartner, к 2027 году 40% генеративных решений искусственного интеллекта будут мультимодальными, сочетая в себе возможности текста, изображений и аудио, а это означает, что модели генерации высококачественного звука, такие как EzAudio, вероятно, продолжат развиваться. роль в области ИИ.
Команда EzAudio опубликовала свой код, наборы данных и контрольные точки моделей, подчеркивая прозрачность и поощряя дальнейшие исследования в этой области.
Исследователи полагают, что EzAudio может найти применение не только в создании звуковых эффектов, но и в таких областях, как производство речи и музыки. Поскольку технологии продолжают развиваться, ожидается, что они будут широко использоваться в таких отраслях, как развлечения, средства массовой информации, вспомогательные услуги и виртуальные помощники.
демо: https://huggingface.co/spaces/OpenSound/EzAudio
Вход в проект: https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file
Выделять:
EzAudio — это новая модель преобразования текста в аудио, запущенная Университетом Джонса Хопкинса в сотрудничестве с Tencent, что знаменует собой значительный прогресс в аудиотехнологиях.
? Благодаря инновационной архитектуре и технологиям аудиосэмплы, генерируемые этой моделью, превосходят по качеству существующие модели с открытым исходным кодом и имеют широкий потенциал применения.
По мере развития технологий вопросы этического и ответственного использования постепенно выходят на первый план, а общедоступный исследовательский кодекс EzAudio также предоставляет широкие возможности для будущего изучения рисков и преимуществ.
Открытый исходный код и высокая производительность EzAudio дают ему значительные преимущества в области генерации звука с помощью искусственного интеллекта, а перспективы его применения в будущем широки, но необходимо также уделять внимание его этическим и социальным последствиям. Редактор Downcodes продолжит уделять внимание развитию и применению этой технологии.