Affrontement face-à-face ByteDance et Kuaishou Video AI : il existe des différences dans la compréhension, la capture et l'imagination

Auteur：Eve Cole Date de mise à jour：2025-02-09 23:48:02

ByteDance et Kuaishou, les deux géants de la vidéo courte s'affrontent en tête-à-tête dans le domaine de l'IA.

Le 8 novembre, Dream AI, une plateforme de contenu d'IA appartenant à ByteDance, a annoncé que Seaweed, un modèle de génération vidéo développé par ByteDance, était officiellement ouvert aux utilisateurs de la plateforme. Selon ByteDance, le modèle de génération vidéo de pouf Seaweed qui est ouvert cette fois-ci est la version standard de ce modèle. Il ne faut que 60 secondes pour générer une vidéo AI de haute qualité de 5 secondes, soit 3 à 5 minutes d'avance. toutes les normes de l’industrie nationale. Nécessite du temps de génération.

Les journalistes du "Daily Economic News" ont effectué des tests réels sur les première et dernière versions de Jimeng et Keling et ont constaté qu'après itération, les effets de génération vidéo des deux produits ont été améliorés à bien des égards et à des degrés divers dans l'espace. la mise en page et les détails de l'image sont plus précis et l'ajustement de l'effet de contenu généré est plus flexible et pratique ; Jimeng présente des avantages en termes de temps de génération et de style vidéo.

Visuel Chine

Un technicien de grand modèle a déclaré aux journalistes qu'il est difficile pour les modèles de génération vidéo d'obtenir différents « styles » de contenu de production « en plus de la technologie, cela dépend aussi principalement de la richesse des sources de données ».

Effectuer plusieurs itérations en peu de temps

Avec l'ouverture du modèle de génération vidéo auto-développé par ByteDance, Seaweed, la paire la plus intéressante du concours national de modèles de génération vidéo - Ji Meng et Ke Ling ont finalement concouru officiellement.

Ils portent tous deux le « plan de création de rêves d'IA » consistant à comprendre le monde physique et à amplifier autant que possible l'imagination tout en dérivant la « réalité ». Mais pour eux-mêmes, Ji Meng et Ke Ling assument également les responsabilités de ByteDance et de Kuaishou.

En fait, Jimeng et Keling ont réalisé plusieurs itérations en moins d’un an. Jimeng a commencé les tests internes de la fonction de génération vidéo fin mars. Six mois plus tard, ByteDance a publié deux modèles de génération vidéo de la famille de modèles Doubao, Seaweed et Pixeldance, et a invité des tests à petite échelle via Jimeng AI et Volcano Engine. Seaweed est ouvert aux utilisateurs de la plateforme Officiellement ouvert.

Pan Helin, membre du Comité d'experts sur l'économie de l'information et de la communication du ministère de l'Industrie et des Technologies de l'information, a déclaré au journaliste du « Daily Economic News » que la vitesse de génération du nouveau modèle utilisé par Jimeng a été améliorée, offrant aux utilisateurs une meilleure expérience de génération. "Jimeng AI est actuellement dans le domaine de la génération nationale. , est toujours relativement leader."

Keling est devenu un blockbuster après sa « naissance » en juin. Depuis sa sortie, il a connu plus de dix mises à jour, dont la sortie de la fonction vidéo Tusheng et le lancement du modèle 1.5. À l'heure actuelle, Keling compte plus de 3,6 millions d'utilisateurs, a généré un total de 37 millions de vidéos et lancera officiellement une application indépendante (logiciel d'application) dans un avenir proche.

Le journaliste du "Daily Economic News" a sélectionné 5 mots d'invite vidéo sora officiellement annoncés par OpenAI (dame dans les rues de Tokyo, astronaute, côte vue par un drone, petit monstre animé en 3D, jeune homme lisant dans le cloud) et les a testés séparément. la première et la dernière version de Menghe Keling comparent verticalement les effets vidéo des deux modèles de génération vidéo.

Après avoir comparé les effets vidéo produits par la version originale de Jimeng et la dernière version, le journaliste a découvert qu'il y a deux parties des mises à jour de Jimeng qui sont plus évidentes : L'une est que dans la performance de « personnes et choses » dynamiques, la capture et la cohérence de les mouvements ont été considérablement améliorés. L'autre est que la présentation différenciée des styles d'images a également fait de grands progrès.

En prenant comme exemple "La Dame dans les rues de Tokyo", les mouvements des personnages créés par Yume de première génération étaient raides, en particulier dans la capture des mouvements des jambes et des pieds, et l'effet global était flou et déformé. La nouvelle version itérée de Ji Meng présente des mouvements de personnage naturels et fluides, et le traitement détaillé de la dynamique des pieds est plus clair et plus conforme à la logique du monde réel.

Il y a une différence évidente entre un rêve et un esprit

Après itération des deux modèles, les effets générés sont plus stables, la qualité de l'image est meilleure et la fluidité et le traitement des détails sont plus capables de résister à un examen minutieux. Cependant, ils présentent encore des différences évidentes en termes de compréhension sémantique, de capture et d’amplification des mots clés, ainsi que d’équilibre entre imagination créative et pertinence créative.

Comparaison horizontale, comparant la dernière version de Jimeng et le modèle 1.5 Keling, pour comparer la présentation de 5 mots d'invite vidéo Sora. La compréhension de la sémantique et la capture de mots-clés rendent la présentation vidéo de Jimeng et Keling différente.

Dans la vidéo "La côte vue d'un drone", Ji Meng a relativement brouillé "l'île avec un phare" dans le mot d'invite, et qu'il s'agisse de Ke Ling ou de Sora, le centre de cette scène était "Île". Dans la description de « Coast Highway », le décor onirique n’est pas conforme à la logique du monde réel.

Dans l'effet vidéo de "Astronaut", Ji Meng n'a pas décrit "l'aventure" dans la description. Après la régénération, l'astronaute tenant un café et conduisant une moto a également ignoré le paramètre "aventure". Ke Ling met l'accent sur « l'aventure » à travers les expressions des personnages et les mouvements de caméra. Cependant, Ji Meng et Ke Ling ont relativement ignoré le paramètre « bande-annonce du film ». En revanche, la vidéo « Spaceman » de Sora a une sensation plus cinématographique.

Dans la génération vidéo "Petit monstre animé en 3D", le décor du petit monstre de Ji Meng est presque le même que celui du personnage "Sally" dans le film d'animation "Monsters, Inc." La description du petit monstre dans les mots rapides, c'est-à-dire la présentation du rêve, est également relativement imprécise, comme la mise en œuvre du décor "poils courts". De plus, en termes de présentation du style artistique, les mots d'invite mettent l'accent sur « l'éclairage et la texture », c'est-à-dire que l'exécution des rêves est plus faible que celle de Ke Ling.

Dans la vidéo "Lady on the Streets of Tokyo", la performance de Ji Meng dans la présentation d'interactions complexes multi-sujets est médiocre par rapport à celle de Ke Ling. La « dame » qui fait l'objet de l'image et la description de l'espace sont relativement précises, mais les piétons sur l'image sont généralement flous et les piétons en gros plan sont déformés.

Cependant, Jimeng AI a officiellement révélé que les versions Pro des modèles de génération vidéo Seaweed et Pixeldance seront disponibles dans un avenir proche. Le modèle de la version Pro optimisera l'interaction multi-sujets et la cohérence des actions multi-plans, tout en résolvant des problèmes tels que la cohérence de la commutation multi-plans.

En termes de fonction et d'expérience, après plusieurs séries d'itérations, Keling a ajusté les paramètres « imagination créative et pertinence créative » lors de la génération de vidéos, afin que des ajustements d'équilibre puissent être effectués. Ke Ling peut également définir du contenu que vous ne souhaitez pas présenter, comme le flou, le collage, la transformation, l'animation, etc. L'opération de génération est plus flexible et l'effet peut être ajusté.

Après les tests, le temps de génération de la vidéo de rêve est plus court. Le temps de génération de la vidéo des 5 mots d'invite de Sora ne dépasse pas une demi-minute chacun. Cependant, il faut plus de 10 minutes pour générer une vidéo de haute qualité de 10 secondes avec le modèle 1.5.

Il convient de noter que les vidéos mentionnées ci-dessus générées par Jimeng et Keling ont été testées et générées par des journalistes. Différentes versions et détails de description entraîneront des différences dans les effets de génération vidéo.

Une bataille dans le domaine de la génération vidéo IA

Pour les deux géants de la vidéo courte ByteDance et Kuaishou, leurs adversaires dans le domaine de la génération de vidéos IA sont bien plus que l'un l'autre.

Par exemple, le 8 novembre, Zhipu, l'un des « Six petits dragons de l'IA », a mis à niveau son outil de génération vidéo Qingying. Le Qingying mis à niveau prend en charge la génération vidéo à partir d'images de n'importe quelle proportion et dispose de capacités de génération multicanal. La même commande ou image peut générer 4 vidéos à la fois. De plus, Qingying peut générer des effets sonores qui correspondent à l'image. Cette fonction d'effet sonore sera lancée en version bêta publique ce mois-ci.

Plus tôt, le 31 août, MiniMax a publié sa première technologie de modèle de génération de vidéo haute définition IA, abab-video-1, qui a reçu de fréquents rapports au cours du premier mois de son lancement. Selon le compte public officiel de MiniMax, au cours du premier mois après le lancement du modèle vidéo sur Conch AI, le nombre de visites sur la version Web de Conch AI a augmenté de plus de 800 %. Les utilisateurs couvrent plus de 180 pays et régions à travers le monde, et le produit s'est classé premier dans la liste des produits d'IA (Web) en septembre. Il se classe premier dans la liste des taux de croissance mondiaux et dans la liste des taux de croissance nationaux.

Wang Peng, chercheur associé à l'Institut de gestion de l'Académie des sciences sociales de Pékin, a souligné au journaliste du "Daily Economic News" que les produits vidéo d'IA au pays et à l'étranger sont actuellement dans une phase de développement rapide et que la technologie étrangère des géants tels que Meta et Google se déploient activement dans le domaine de la vidéo IA ; au niveau national, Kuaishou Keling, Jimeng AI et d'autres produits sont également constamment mis à niveau de manière itérative pour améliorer l'expérience utilisateur et les capacités de commercialisation.

En termes de possibilités de commercialisation, un rapport de recherche publié par Soochow Securities en août de cette année mentionnait que, dans l'hypothèse neutre d'un taux de pénétration de l'IA de 15 %, l'espace potentiel pour l'industrie chinoise de la génération de vidéos IA est de 317,8 milliards de yuans ; les coûts de production des films, longs métrages dramatiques, dessins animés et courts métrages seront réduits de plus de 95 % par rapport au modèle traditionnel.

L'énorme taille potentielle du marché et le « super pouvoir » de réduction des coûts et d'augmentation de l'efficacité peuvent également être aperçus à partir des données d'utilisation de Keling.

Lors de la « 2024 China Computer Conference » qui s'est tenue en octobre, Zhang Di, vice-président de Kuaishou et chef de l'équipe des grands modèles, a révélé que depuis sa sortie en juin de cette année, Kuaishou Keling AI compte plus de 3,6 millions d'utilisateurs et a généré un total de 37 millions de vidéos et plus de 100 millions d'images.

Pan Helin a déclaré dans une interview avec un journaliste du « Daily Economic News » que Keling est soutenu par Kuaishou et dispose d'un support de trafic, de sorte que le processus de commercialisation est très rapide « Les produits vidéo IA doivent toujours être soutenus par la plate-forme Internet. le trafic peut-il avoir un potentiel commercial." ".

De même, ByteDance a également placé la commercialisation de modèles vidéo au premier plan de sa liste de tâches. Lorsque deux modèles de génération vidéo ont été lancés en septembre de cette année, Tan Dai, président de Volcano Engine, a déclaré publiquement que le nouveau modèle de génération vidéo de type pouf « envisageait une commercialisation depuis son lancement. Les domaines d'utilisation incluent le marketing du commerce électronique et l'animation ». l’éducation, le tourisme culturel urbain et les micro-scripts.

« La vidéo IA montrera différents potentiels de commercialisation du côté B et du côté C. » Wang Peng estime que pour le côté B, la vidéo IA peut fournir aux entreprises des solutions de production et de distribution vidéo plus efficaces et moins coûteuses ; Du côté de l'IA, la vidéo peut répondre aux besoins des utilisateurs en matière de contenu vidéo personnalisé et de haute qualité, et peut également être combinée avec le commerce électronique, la publicité et d'autres secteurs pour obtenir un marketing et une monétisation plus précis.