Depuis la naissance de sora, qui a marqué le début d'une nouvelle ère de vidéo IA, des acteurs majeurs du pays et de l'étranger ont successivement rejoint le concours vidéo IA. Mais alors que nous entrons dans cette nouvelle ère de vidéo plus interactive et immersive, comment pouvons-nous relever les défis de coût, de qualité et de performances ?
Le 15 octobre, Volcano Engine et Intel ont publié conjointement une solution de prétraitement vidéo de formation de grands modèles lors de la Video Cloud Technology Conference. Un journaliste du « Daily Economic News » a appris lors de la conférence de presse que cette solution technique avait été appliquée au modèle de génération vidéo de poufs.
Lors de la conférence de presse, Li Hang, responsable de Bytedance Research, a présenté que le modèle de génération vidéo Doubao PixelDance avait adopté la solution de prétraitement vidéo de formation de grands modèles de Volcano Engine pendant le processus de formation, utilisant pleinement un grand nombre de ressources de marée et fournissant un soutien solide. pour la formation des modèles.
De plus, Wang Yue, responsable de l'architecture vidéo du groupe Douyin, a révélé les derniers progrès de la puce de codec vidéo auto-développée par Byte : vérifiée par les pratiques internes du groupe Douyin, cette puce permet d'économiser plus de 95 % du coût avec la même compression vidéo. efficacité.
"Tout d'abord, l'ensemble des données de formation vidéo à très grande échelle a entraîné une augmentation des coûts de calcul et de traitement." Wang Yue a souligné que les grands fabricants de modèles sont confrontés à de nombreux défis dans le processus de prétraitement. "Deuxièmement, la vidéo. Les échantillons de données sont inégaux, puis il existe de nombreux liens de traitement. Le projet est complexe et est finalement confronté à la planification et au déploiement de plusieurs ressources informatiques hétérogènes telles que le GPU, le CPU et ARM.
Cadre de traitement multimédia auto-développé
Lors du Volcano Engine AI Innovation Tour le 24 septembre, deux grands modèles de génération vidéo de poufs, PixelDance et Seaweed, ont été lancés ensemble, attirant l'attention des personnes à l'intérieur et à l'extérieur de l'industrie. En fait, les efforts de ByteDance en matière de modèles de génération vidéo ne s’arrêtent pas là.
Le 15 octobre, Volcano Engine a lancé une solution de prétraitement vidéo de formation de grands modèles, dédiée à la résolution des défis techniques en termes de coût, de qualité et de performances de la formation vidéo de grands modèles.
Selon les rapports, le prétraitement des vidéos de formation est une condition préalable importante pour garantir l'effet de la formation sur de grands modèles. Le processus de prétraitement peut unifier le format de données de la vidéo, améliorer la qualité des données, normaliser les données, réduire la quantité de données et traiter les informations d'annotation, afin que le modèle puisse apprendre plus efficacement les caractéristiques et les connaissances de la vidéo et améliorer la formation. effet et efficacité.
Dans la formation de modèles de génération vidéo, le coût de la puissance de calcul est sans aucun doute le défi numéro un.
Un ingénieur en algorithme d'un modèle de génération vidéo national a déclaré dans une interview avec un journaliste du "Daily Economic News" qu'avec des données de haute qualité, les modèles vidéo seront plus difficiles à former que les grands modèles de langage et nécessiteront plus de puissance de calcul "à l'heure actuelle. , Les modèles vidéo open source connus ne sont pas particulièrement volumineux, principalement parce que de nombreux modèles vidéo sont actuellement à un stade où ils ne savent pas comment utiliser les données et qu'il n'y a pas beaucoup de données de haute qualité (pour la formation)."
Les recherches de l'informaticien Matthias Plappert montrent également que la formation de Sora nécessite une énorme puissance de calcul. Dans le processus de formation, il faut environ 1 mois pour s'entraîner sur 4 200 à 10 500 Nvidia H100. Lorsque le modèle est généré et atteint le stade d'inférence, le calcul. le coût augmentera rapidement au-delà de la séance de formation.
Afin de résoudre le problème de la réduction des coûts, Volcano Engine s'appuie sur le processeur d'Intel et d'autres ressources pour s'appuyer sur sa solution de prétraitement vidéo de formation de grands modèles sur son cadre de traitement multimédia auto-développé. Wang Yue a déclaré que la solution a également été optimisée en termes d'algorithmes et d'ingénierie, et qu'elle peut effectuer un prétraitement de haute qualité de données vidéo massives, parvenir à une collaboration efficace des liens de traitement en peu de temps et améliorer l'efficacité de la formation des modèles.
Concernant l'application de cette solution, Li Hang a révélé lors de la conférence de presse que le modèle de génération vidéo pouf PixelDance a adopté cette solution pendant le processus de formation. Dans le même temps, la solution à la demande fournie par l'équipe Volcano Engine Video Cloud fournit également un service unique pour tout le cycle de vie des vidéos produites par PixelDance, depuis l'édition, le téléchargement, le transcodage, la distribution et la lecture, garantissant ainsi la application commerciale du modèle.
De plus, lors de cette conférence, Volcano Engine a également lancé une solution de diffusion en direct simultanée multilingue, une solution de compréhension et de génération de vidéos multimodales, une solution d'interaction conversationnelle en temps réel avec l'IA et une solution de reconstruction AIG3D et de grandes scènes. Côté production de la vidéo, de la fin interactive à la fin consommateur, l'ensemble du lien intègre les capacités de l'IA.
Où va la vidéo IA ?
L’IA remodèle la manière dont les gens produisent, diffusent et reçoivent des informations sous tous leurs aspects. Parmi elles, les nouvelles technologies vidéo émergentes ont amené les gens du monde des données fluides et haute définition au monde de l'IA avec des expériences plus intelligentes et plus interactives.
En juillet de cette année, SenseTime a lancé Vimi, le premier modèle de génération vidéo de grands personnages contrôlables pour les utilisateurs C ; en août, MiniMax a publié le modèle de génération vidéo vidéo-1, Keling AI a terminé sa neuvième itération et a publié « KeLing 1.5 » ; ", Alibaba Cloud a lancé un nouveau modèle de génération vidéo lors de la conférence Yunqi, et Byte a également publié 2 modèles de génération vidéo. La naissance et l’itération des produits vidéo IA prennent presque des mois.
Concernant « l'explosion » des produits vidéo d'IA, Wang Peng, chercheur associé à l'Académie des sciences sociales de Pékin, a déclaré dans une interview avec un journaliste du « Daily Economic News » que les produits vidéo d'IA nationaux sont dans une phase de développement rapide et itération continue, principalement en raison de la forte demande du marché et du large éventail de scénarios d’application et de divers modèles de commercialisation.
À l'heure actuelle, les produits vidéo IA sur le marché sont principalement mis en œuvre dans les domaines du cinéma et de la télévision, du marketing du commerce électronique et dans d'autres domaines. Par exemple, en juillet de cette année, Jimeng AI et Bona Pictures ont coopéré pour lancer le premier AIGC continu génératif du pays. la courte série narrative de science-fiction « Sanxingdui : Future Enlightenment » « Record » en septembre de cette année, Kuaishou s'est associé à neuf réalisateurs bien connus, dont Jia Zhangke et Li Shaohong, pour lancer le projet de co-création du réalisateur « Keling AI ».
Pan Helin, membre du Comité d'experts sur l'économie de l'information et de la communication du ministère de l'Industrie et des Technologies de l'information, a souligné au journaliste du « Daily Economic News » que certains produits vidéo d'IA en sont maintenant à la phase d'introduction et sont difficiles à déployer. sur le marché en raison de la technologie ou de la conformité. « Actuellement, il semble que les produits open source (AI Video) soient plus populaires que les produits fermés, car le coût de la génération de vidéos IA est élevé et les producteurs de vidéos manquent souvent de fonds, c'est pourquoi ils utilisent l'open source. Les algorithmes d'IA source téléchargés sur le terminal peuvent mieux produire et générer des vidéos.
Selon lui, les produits vidéo IA se heurtent à ce stade principalement à deux obstacles : la puissance de calcul et les risques de non-conformité. « Les algorithmes, la puissance de calcul et les données exigent tous que les entreprises investissent plus de ressources et de temps ; une autre difficulté réside dans les risques de non-conformité. De nos jours, on accorde de plus en plus d'attention à la vie privée. vie privée », a-t-il expliqué.
En outre, Chen Chen, partenaire de recherche d'Analysys Analysis, a également exprimé ses inquiétudes quant à la capacité de monétisation à court terme des grands modèles de génération vidéo dans une interview avec un journaliste du « Daily Economic News » « En raison des coûts élevés de formation des modèles et d'inférence des grandes IA ». " Les modèles vidéo, couplés à la demande des utilisateurs du côté C pour les outils d'IA, sont relativement dispersés et leur volonté de payer est insuffisante. La commercialisation de grands modèles vidéo sur le marché du côté C sera encore confrontée à une longue période de culture. "
L'ère de la vidéo IA est arrivée, mais la manière de réduire les coûts, d'augmenter l'efficacité et de conquérir davantage de marchés deviendra également une proposition importante à laquelle seront confrontées les grandes sociétés Internet et les entreprises technologiques.