Les émoticônes, des images statiques aux vidéos dynamiques, sont devenues un élément important de la culture en ligne. Cependant, il n'est pas facile de produire des vidéos d'émoticônes de haute qualité. Les méthodes existantes présentent des problèmes tels qu'une faible efficacité et une faible capacité de généralisation. Cet article présente un outil appelé HelloMeme, qui peut générer facilement et efficacement des vidéos d'émoticônes vives, intéressantes et haute fidélité, ajoutant ainsi un nouveau plaisir à la création de courtes vidéos.
Chers « experts du surf », vous souvenez-vous encore des émoticônes que nous suivions dans ces années-là ? De « Le vieil homme dans le métro regardant son téléphone portable » à « La tête de panda du conservateur d'or », elles nous faisaient non seulement rire, mais aussi ? est devenu une sorte de symbole culturel Internet unique. De nos jours, les courtes vidéos sont populaires partout dans le monde, et les émoticônes « avancent également avec le temps », passant d'images statiques à des vidéos dynamiques, qui sont folles sur toutes les principales plateformes.
Cependant, il n’est pas facile de créer une vidéo d’émoticônes de haute qualité. Tout d’abord, les émoticônes se caractérisent par des expressions exagérées et des mouvements amples, ce qui représente un défi considérable pour la technologie de génération vidéo. Deuxièmement, de nombreuses méthodes existantes nécessitent une optimisation des paramètres de l'ensemble du modèle, ce qui est non seulement long et laborieux, mais peut également conduire à une diminution de la capacité de généralisation du modèle, ce qui rend difficile sa compatibilité avec d'autres modèles dérivés. .
Alors, existe-t-il un moyen pour nous de créer facilement des vidéos d'émoticônes à la fois vivantes, intéressantes et haute fidélité ? La réponse est : bien sûr, HelloMeme est là pour vous sauver !
HelloMeme est comme un outil « plug-in » pour les grands modèles. Il permet au modèle d'apprendre la « nouvelle compétence » consistant à créer des vidéos d'émoticônes sans modifier le modèle d'origine. Son arme secrète est d'optimiser le mécanisme d'attention lié à la carte de caractéristiques bidimensionnelle, améliorant ainsi les performances de l'adaptateur. Pour faire simple, une paire de « lunettes transparentes » est posée sur le modèle afin qu'il puisse capturer plus précisément les détails des expressions et des mouvements.
Le fonctionnement de HelloMeme est également intéressant. Il se compose de trois petits partenaires : HMReferenceNet, HMControlNet et HMDenoisingNet.
HMReferenceNet est comme un maître qui a « lu d'innombrables images » et peut extraire des caractéristiques haute fidélité à partir d'images de référence. C'est comme fournir au modèle un "Guide de création de packs Emoji" afin qu'il sache quels types d'expressions sont suffisamment "simples".
HMControlNet est comme un « maître de capture de mouvement » capable d'extraire des informations sur la posture de la tête et les expressions faciales. Cela équivaut à installer un « système de capture de mouvement » sur le modèle, lui permettant de capturer avec précision chaque changement subtil d'expression.
HMDenoisingNet est « l'éditeur vidéo », qui se charge d'intégrer les informations fournies par les deux amis précédents pour générer la vidéo d'émoticône finale. C'est comme un monteur expérimenté qui peut parfaitement mélanger divers matériaux pour créer une vidéo qui fait rire les gens.
Afin de permettre à ces trois amis de mieux travailler ensemble, HelloMeme utilise également une magie appelée « mécanisme d'attention du tissage spatial ». Ce mécanisme revient à tricoter un pull, entrelaçant différentes informations de caractéristiques, conservant ainsi les informations structurelles dans la carte de caractéristiques bidimensionnelle. De cette manière, le modèle n'a pas besoin de réapprendre ces connaissances de base et peut se concentrer davantage sur la « création artistique » de la production d'émoticônes.
La chose la plus puissante de HelloMeme est qu'il conserve complètement les paramètres d'origine du modèle SD1.5UNet pendant le processus de formation et optimise uniquement les paramètres insérés dans l'adaptateur. ** C'est comme donner un « patch » au modèle plutôt que d'effectuer une « intervention chirurgicale majeure » dessus. ** L'avantage est qu'il conserve non seulement les fonctions puissantes du modèle original, mais lui donne également de nouvelles capacités. On peut dire qu'il fait d'une pierre deux coups.
HelloMeme a obtenu d'excellents résultats dans la tâche de génération de vidéos d'émoticônes. Les vidéos qu'il génère ont non seulement des expressions vives et des mouvements fluides, mais ont également une définition d'image élevée, comparable aux niveaux de production professionnels. Plus important encore, HelloMeme a également une bonne compatibilité avec les modèles dérivés SD1.5, ce qui signifie que nous pouvons profiter d'autres modèles pour améliorer encore la qualité des vidéos d'émoticônes.
Bien entendu, HelloMeme a encore beaucoup à faire. Par exemple, la vidéo qu'elle génère est légèrement inférieure à certaines méthodes basées sur le GAN en termes de continuité d'image, et sa capacité d'expression de style doit également être améliorée. Cependant, l’équipe de recherche de HelloMeme a déclaré qu’elle continuerait à travailler dur pour améliorer le modèle afin de le rendre plus puissant et plus « sculpture de sable ».
Je pense que dans un avenir proche, HelloMeme deviendra le meilleur outil pour nous pour créer des vidéos d'émoticônes, nous permettant de libérer notre imagination de « sculpture de sable » et d'utiliser des émoticônes pour dominer l'ère des vidéos courtes !
Adresse du projet : https://songkey.github.io/hellomeme/
Dans l’ensemble, HelloMeme fournit une solution de génération vidéo d’émoticônes efficace et pratique, et sa technologie innovante et ses excellents effets valent la peine d’être attendus. À l'avenir, avec les progrès continus de la technologie, je pense que HelloMeme deviendra un outil indispensable dans le domaine de la création d'émoticônes, permettant à davantage de personnes de créer facilement de merveilleuses œuvres vidéo.