Media2Face — это революционная мультимодальная модель создания 3D-анимации лица, которая может генерировать реалистичную анимацию выражений лица на основе мультимодальных входных данных, таких как речь. Эта модель создает крупномасштабный набор данных под названием M2F-D, вводя обобщенные нейронные параметризованные ресурсы лица (GNPFA) и используя его для извлечения высококачественной информации о выражении лица и положении головы из огромных видеоданных. Наконец, исследовательская группа предложила диффузионную модель Media2Face, основанную на скрытом пространстве GNPFA, обеспечивающую высококачественную генерацию анимации лица на родном языке и достигающую новых высот с точки зрения точности и выразительности. Он позволяет пользователям персонализировать создаваемую анимацию, например, настраивать гнев, счастье и другие выражения эмоций.
Media2Face — это модель продукта, которая поддерживает голосовые и другие мультимодальные указания для создания трехмерных динамических выражений лица. Выполняя более детальные персонализированные настройки сгенерированной лицевой анимации, он также позволяет пользователям вносить более подробные персонализированные настройки сгенерированной лицевой анимации, такие как гнев, счастье и т. д. Исследовательская группа отреагировала на проблему тремя ключевыми шагами: сначала представила обобщенные нейронные параметризованные лицевые ресурсы, затем использовала GNPFA для извлечения высококачественных выражений и точных поз головы из большого количества видео для формирования набора данных M2F-D и, наконец, предложила Media2Face, скрытая пространственная диффузионная модель GNPFA для создания анимации лица на одном языке. В целом, Media2Face добилась впечатляющих результатов в области совместной языковой анимации лица, открыв новые возможности для точности и выразительности синтеза лицевой анимации.Появление модели Media2Face принесло новые технологические прорывы в области производства 3D-анимации, виртуальной реальности и взаимодействия человека с компьютером. Ее возможности эффективной генерации и возможности персонализированной настройки предвещают более реалистичное и выразительное будущее. . Эта технология имеет широкий спектр сценариев применения в будущем и заслуживает постоянного внимания к ее развитию.