Byte battant le lancement d'un nouveau système d'IA Omnihuman, qui peut générer des vidéos de corps entières réalistes basées sur des photos uniques pour montrer les discours, le chant et les actions naturelles des personnages. Cette technologie intègre une variété d'intrants tels que le texte, l'audio et les mouvements humains, et adopte la méthode de formation de la "condition complète" pour apprendre des données massives. L'émergence d'Omnihuman indique que le domaine du divertissement et de la communication numériques inaugurera de nouveaux changements, apportant des possibilités illimitées de création vidéo, de production de contenu éducatif et de communication numérique.
Omnihuman est capable de générer des vidéos du corps pour montrer les gestes et la dynamique des personnages lorsqu'ils parlent, dépassant les modèles d'IA qui ne peuvent simuler que le visage ou le haut du corps. Le cœur de cette technologie est qu'il combine une variété d'intrants tels que le texte, l'audio et les mouvements humains.
L'équipe de recherche a souligné qu'Omnihuman avait montré des progrès significatifs après plus de 18 700 heures de formation de données vidéo humaines. En introduisant différents signaux conditionnels (tels que le texte, l'audio et la posture), cette technologie améliore non seulement la qualité de la génération de vidéos, mais réduit également efficacement les déchets de données.
Les chercheurs ont mentionné dans un article publié dans ArXIV que, bien que la technologie finale de l'animation humaine ait fait des progrès significatifs ces dernières années, les méthodes existantes ont encore des limites à l'échelle d'application.
Omnihuman a un large éventail de potentiels d'application et peut être utilisé pour faire des vidéos de discours, démontrer des performances instrumentales, etc. Après les tests, cette technologie est meilleure que le système existant dans des références de qualité multiple, montrant ses excellentes performances. Cette évolution est apparue dans le contexte d'une concurrence croissante entre la technologie de génération de vidéos AI, et des entreprises telles que Google, Meta et Microsoft poursuivent également activement des technologies similaires.
Cependant, bien qu'Omnihuman apporte la possibilité de changements à la production de divertissement, à la création de contenu éducatif et à la communication numérique, il a également suscité des préoccupations concernant l'utilisation abusive potentielle des médias synthétiques. L'équipe de recherche présentera ses résultats de recherche lors d'une prochaine conférence sur la vision par ordinateur, bien que la durée et la réunion spécifiques n'aient pas encore été annoncées.
Thèse: https://arxiv.org/pdf/2502.01061
Points:
Omnihuman est un nouveau type d'IA qui peut transformer des photos uniques en vidéos de corps entières réalistes.
Après 18 700 heures de formation sur les données vidéo humaines, cette technologie combine une variété de signaux d'entrée pour améliorer l'effet de génération.
Malgré un potentiel d'application étendu, il a également suscité des préoccupations concernant la possibilité de milieux synthétiques.
La percée de la technologie OMNihuman a établi de nouvelles références pour le domaine de la génération de vidéos IA, mais en même temps, il doit également prêter attention à ses risques éthiques potentiels. utilisé raisonnablement et éviter les impacts négatifs. Dans l'attente de plus d'applications et de résultats de recherche sur Omnihuman à l'avenir.