Технология генерации лицевого видео на основе звука JoyVASA поддерживает персонажей маленьких животных - статья об искусственном интеллекте

Автор：Eve Cole Время обновления：2025-01-29 08:32:02

Технология анимации изображений на основе звука за последние годы добилась значительного прогресса, но сложность и эффективность существующих моделей ограничивают ее применение. Чтобы решить эти проблемы, исследователи разработали новую технологию под названием JoyVASA, которая значительно улучшает качество, эффективность и область применения аудио-анимации изображений благодаря инновационному двухэтапному дизайну. JoyVASA не только может создавать более длинные анимированные видеоролики, но также анимировать портреты людей и морды животных и поддерживает несколько языков.

Недавно исследователи предложили новую технологию под названием JoyVASA, целью которой является улучшение эффектов анимации изображений, управляемых звуком. Благодаря постоянному развитию моделей глубокого обучения и распространения портретная анимация на основе звука добилась значительного прогресса в качестве видео и точности синхронизации губ. Однако сложность существующих моделей повышает эффективность обучения и вывода, а также ограничивает продолжительность и межкадровую непрерывность видео.

JoyVASA использует двухэтапный дизайн. На первом этапе вводится разделенная структура представления лица, позволяющая отделить динамические выражения лица от статических трехмерных представлений лица.

Такое разделение позволяет системе комбинировать любую статическую 3D-модель лица с динамическими последовательностями действий для создания более длинных анимированных видеороликов. На втором этапе исследовательская группа обучила диффузионный преобразователь, который может генерировать последовательности действий непосредственно из звуковых сигналов — процесс, не зависящий от личности персонажа. Наконец, генератор, основанный на первом этапе обучения, принимает трехмерное изображение лица и сгенерированную последовательность действий в качестве входных данных для визуализации высококачественных анимационных эффектов.

Примечательно, что JoyVASA не ограничивается анимацией портретов людей, но также может легко анимировать морды животных. Эта модель обучена на смешанном наборе данных, объединяющем частные данные на китайском языке и общедоступные данные на английском языке, что демонстрирует хорошие возможности многоязычной поддержки. Результаты экспериментов доказывают эффективность этого метода. Будущие исследования будут сосредоточены на улучшении производительности в реальном времени и совершенствовании управления выражениями для дальнейшего расширения применения этой структуры в анимации изображений.

Появление JoyVASA знаменует собой важный прорыв в технологии аудио-анимации, открывающий новые возможности в области анимации.

Вход в проект: https://jdh-algo.github.io/JoyVASA/

Выделять:

Технология JoyVASA позволяет создавать более длинные анимированные видео, отделяя выражения лица от 3D-моделей.

Эта технология может генерировать последовательности действий на основе звуковых сигналов и обладает двойной способностью анимации персонажей и животных.

JoyVASA обучена работе с наборами данных на китайском и английском языках, имеет многоязычную поддержку и предоставляет услуги пользователям по всему миру.

Инновация технологии JoyVASA заключается в ее изолированном дизайне и эффективном использовании звуковых сигналов, что обеспечивает новое направление для будущего развития технологии аудио-анимации изображений. Многоязычная поддержка и эффективные возможности создания анимации также делают ее широко используемым приложением. перспективы. Ожидается, что JoyVASA сможет еще больше улучшить производительность в реальном времени и достичь более сложного контроля экспрессии в будущем.