Les grands modèles sont un domaine où la vitesse est la clé, mais parfois la lenteur peut être un autre type de vitesse.
Le 31 août, la société nationale licorne d'IA MiniMax Shanghai Xiyu Technology Co., Ltd. (ci-après dénommée « MiniMax ») a publié discrètement le modèle vidéo abab-video-1 lors de la première conférence des développeurs « MiniMaxLink Partner Day Enter ». le mot d'invite peut générer des vidéos d'une durée maximale de 6 secondes, en se concentrant sur la haute résolution et la fréquence d'images élevée.
En d'autres termes, le modèle vidéo mentionné par MiniMax est similaire au modèle vidéo Vincent de sora d'OpenAI. En tant que fondateur et PDG de MiniMax, Yan Junjie estime que la « rapidité » est l'objectif principal de recherche et de développement technologique du grand modèle sous-jacent de l'entreprise. Cependant, le modèle vidéo a plusieurs mois de retard sur Sora.
"Pourquoi notre lancement est-il en retard d'un ou deux mois ? L'essentiel est que nous résolvons un problème technique plus difficile, à savoir comment former nativement des choses avec une puissance de calcul relativement élevée, a déclaré Yan Junjie à un journaliste de China Business News." formation Lors du développement de capacités de génération de vidéo, vous devez d'abord convertir les vidéos en jetons, et ces jetons seront très longs et la complexité sera plus élevée « En fait, ce que nous avons principalement fait au cours du premier semestre a été de réduire le nombre de jetons. complexité. Augmentez le taux de compression, donc c’est un mois ou deux de retard.
MiniMax a déclaré que, sur la base de l'évaluation interne et des scores d'exécution, le modèle vidéo de l'entreprise fonctionne mieux que celui de Runway. Actuellement, Keling a lancé un modèle commercial de plan d'abonnement. Alors, quel sera le modèle économique du modèle vidéo MiniMax ? À cet égard, Yan Junjie a déclaré : « Notre stratégie est d'attendre encore une semaine ou deux. Une fois que de nouvelles choses seront sorties et que nous serons dans un état plus satisfaisant, nous pourrons envisager (de prendre) des (mesures) de commercialisation. »
Il a également mentionné qu'en raison des progrès rapides des modèles, même si les vidéos générées par l'IA ne peuvent pas remplacer les moteurs de rendu traditionnels, elles « offrent au moins une possibilité » de créer des jeux 3A comme « Black Myth : Wukong ».
Envisagez la commercialisation uniquement lorsque vous êtes plus satisfait
Bien que la voie de commercialisation du modèle vidéo n'ait pas été mentionnée, Yan Junjie a déclaré : « La commercialisation de l'ensemble de l'entreprise est essentiellement divisée en deux formes. L'une d'entre elles est notre plateforme ouverte, qui compte désormais plus de 2 000 clients, dont de nombreux clients bien connus. Les sociétés Internet, y compris les entreprises traditionnelles, ont déjà la possibilité pour les utilisateurs d'utiliser le son et l'image. Toutes les entreprises ne peuvent pas le faire elles-mêmes comme Kuaishou. Nous sommes un bon partenaire, et c'est la partie 2B.
« La deuxième est que nos propres produits disposent également de mécanismes publicitaires et que la publicité peut être monétisée commercialement. Yan Junjie estime qu'à l'heure actuelle, « le plus important n'est pas la commercialisation, mais la véritable diffusion de la technologie ». disponibilité."
Les vidéos générées par l'IA (modèles vidéo) avec une technologie relativement complexe sont devenues cette année une opération courante pour les grands fabricants de modèles afin de démontrer leur force ou de « fléchir leurs muscles », et OpenAI a commencé cela. En février de cette année, OpenAI a publié Sora, un grand modèle vidéo, mais il n'a pas encore été publié pour des tests publics. En avril, Shengshu Technology a publié le grand modèle vidéo Vidu ; en juin, Kuaishou a publié le grand modèle vidéo Keling ; en juillet, le modèle vidéo généré par Zhipu AI Qingying a été officiellement lancé...
Pourquoi MiniMax veut-il créer un modèle vidéo ? Yan Junjie a déclaré que l'essentiel est que la plupart du contenu que les humains consomment chaque jour est constitué d'images, de textes et de vidéos, et que le texte ne représente pas une proportion élevée « afin d'avoir une couverture d'utilisateurs très élevée et une plus grande profondeur d'utilisation, comme. un grand fabricant de modèles, le seul moyen est de pouvoir produire du contenu multimodal au lieu de simplement produire du contenu purement textuel.
Il a ajouté : « C'est juste que nous avons d'abord créé du texte, puis des sons, et nous avons fait des images il y a longtemps. Maintenant que la technologie est devenue plus forte, (peut) aussi faire des vidéos. Cette voie est cohérente, elle doit être multi -modal. "Dans le passé, MiniMax créait de grands modèles de langage, puis des modèles sonores, puis des modèles d'images", mais maintenant la technologie est devenue plus forte, et elle doit également créer des vidéos. Cette voie doit être cohérente. modalité".
Selon Zhang Yuxuan, ingénieur en algorithme d'IA, bien que MiniMax n'ait pas annoncé les paramètres spécifiques et les points techniques du modèle vidéo, il ressort de la vidéo de génération de modèle affichée que l'algorithme de l'entreprise est toujours très puissant et que Keling de Kuaishou est relativement en ingénierie. mieux.
Yan Junjie a déclaré aux journalistes : « Qu'il s'agisse de vidéo, de texte ou de son, l'idée principale de recherche et développement de l'équipe MiniMax n'est pas d'améliorer l'algorithme de 5 % ou 10 %. amélioré plusieurs fois. Si cela peut être amélioré plusieurs fois, alors cela doit être fait, cela ne vaut pas la peine de le faire si cela n’augmente que de 5 %.
Il est entendu que le modèle vidéo de MiniMax n'est actuellement que la première version et sera fourni gratuitement aux utilisateurs pendant un certain temps. Une nouvelle version sera bientôt disponible. "Le travail de suivi se concentrera sur les données et l'algorithme lui-même, y compris les détails plus pratiques à utiliser. Par exemple, seules les vidéos basées sur du texte sont actuellement fournies. À l'avenir, les vidéos basées sur des images, les vidéos générées par texte + image , ainsi que l'éditabilité et la contrôlabilité seront publiés les uns après les autres", a déclaré Yan Junjie. .
"Black Myth : Wukong" est toujours populaire et l'IA a créé un nouveau gameplay dans le jeu. Récemment, Google a souligné dans un article qu'il avait créé le premier moteur de jeu en temps réel entièrement piloté par l'IA - GameNGen, capable de générer les graphismes du jeu de tir classique "Doom" en temps réel à 20 images par seconde. les graphiques du jeu sont générés en temps réel en fonction des opérations du joueur et de l'interaction avec des environnements complexes, et chaque image est prédite par le modèle de diffusion.
Alors, sera-t-il encore loin dans le futur pour que l’IA puisse générer des chefs-d’œuvre de jeux 3A en temps réel ? Yan Junjie a déclaré que "Black Myth: Wukong" utilise toujours la méthode traditionnelle de modélisation et de rendu. Cette méthode a progressé très lentement. La génération de vidéo et la génération de texte n'étaient peut-être pas disponibles du tout. maintenant disponible et se développe rapidement.
"(La génération vidéo) n'est en fait qu'un début, car ce n'est que la première année, et les progrès seront certainement très rapides. Je ne sais pas s'il peut remplacer le moteur de rendu traditionnel, mais au moins il peut offrir une possibilité Parce que les progrès sont rapides, à long terme, plus les progrès sont rapides, mieux c'est", a déclaré Yan Junjie.
Croissance significative des usages et compétitivité accrue du modèle
Rapide est un mot-clé mentionné à plusieurs reprises par Yan Junjie. "Que nous fassions du MoE, de l'attention linéaire ou d'autres explorations, l'essentiel est de rendre le même modèle d'effet plus rapide." Yan Junjie a déclaré que la rapidité est bonne, ce qui signifie que la même puissance de calcul peut devenir meilleure. C'est l'approche de MiniMax. la R&D sous-jacente.
Dans le même temps, il a également souligné que la réduction continue du taux d'erreur du modèle, les entrées et sorties infiniment longues et la multimodalité sont trois défis que l'industrie doit continuer à relever.
Selon la société, MiniMax a connu deux changements technologiques sous-jacents clés dans le passé, notamment le MoE (Mélange d'experts, modèle expert mixte) et l'Attention linéaire (attention linéaire). En avril de cette année, la société a développé un modèle de nouvelle génération basé sur MoE+ Linear Attention, comparable au GPT-4o.
Les informations publiques montrent que MiniMax est une start-up d'intelligence artificielle créée en décembre 2021. Elle a été fondée par Yan Junjie, ancien vice-président de SenseTime et ancien directeur adjoint de l'institut de recherche. Ses membres sont principalement issus d'IA de renom. des sociétés telles que SenseTime.
Tianyancha montre qu'en mars de cette année, MiniMax a finalisé un financement de série B de 600 millions de dollars, avec Alibaba comme investisseur, et que sa valorisation a atteint 2,5 milliards de dollars. Auparavant, en juin 2023, MiniMax avait réalisé un financement de série A de plus de 250 millions de dollars américains, et l'investisseur était Tencent Investment.
Un an après sa création, MiniMax a développé indépendamment l'architecture de modèle de base de trois modes : texte-visuel, texte-parole et texte-texte, et a construit une plate-forme de raisonnement informatique basée sur le modèle de base.
En termes de produits, MiniMax s'occupe à la fois des marchés côté B et côté C. Les applications côté C incluent l'application de chat IA de jeu de rôle Glow, le logiciel social IA Hoshino, l'assistant de conversation vocale IA Conch WeChat, etc. le côté B fournit des solutions personnalisées aux entreprises. L'interface API permet aux entreprises d'accéder à diverses fonctionnalités du modèle ABAB. Des sociétés telles que Huoshan Engine, Kingsoft Office, DingTalk, Zhaopin Recruitment et China Literature utilisent toutes ses services. Les données officielles montrent que les modèles MiniMax interagissent actuellement avec les utilisateurs du monde entier plus de 3 milliards de fois par jour, traitant plus de 3 000 milliards de jetons texte, 20 millions d’images et 70 000 heures de voix. Il y a un an, le temps d'interaction MiniMax ne représentait que 3 % de ChatGPT, et maintenant cette proportion est passée à 53 %.
Depuis mai, une guerre des prix a éclaté dans le domaine des grands modèles, et les API ont chuté jusqu'aux « prix du chou ». En parlant de la guerre des prix des grands modèles, Yan Junjie a souligné qu'avec la guerre des prix, de nombreuses entreprises traditionnelles ont commencé à être disposées à utiliser de grands modèles, « objectivement parlant, cela a considérablement augmenté le nombre d'appels de modèles ».
Dans le même temps, cela favorise également l'amélioration des performances des modèles. Les grands modèles chinois sont également devenus compétitifs en Asie du Sud-Est et dans d'autres pays d'outre-mer. "La concurrence entre les modèles nationaux est si féroce que nous devons aller de l'avant. Au moins dans les pays non anglophones, nous pouvons atteindre un niveau comparable à celui du GPT. Yan Junjie a déclaré que la concurrence est inévitable. " Le côté optimiste montre deux changements positifs : premièrement, l’utilisation de grands modèles nationaux augmente de manière significative, et deuxièmement, les modèles chinois deviennent effectivement de plus en plus compétitifs à l’étranger.
Yan Junjie a déclaré que la plupart des entreprises pensaient que les grands modèles étaient chers, mais que plus tard, de nombreuses personnes pensaient que les grands modèles étaient bon marché et pouvaient être utilisés en toute confiance. En fin de compte, j'ai été surpris de constater que de nombreuses entreprises traditionnelles sont très disposées à utiliser de grands modèles. Elles pensent que le coût est faible de toute façon, et peu importe si elles font des erreurs, elles peuvent simplement le rappeler. Objectivement parlant, cela a considérablement augmenté le nombre d'appels de modèles, encourageant ainsi le modèle à faire mieux. Au moins pour l'instant, dans les langues autres que l'anglais, le niveau des grands modèles nationaux est comparable à celui du GPT. Par conséquent, d'un point de vue optimiste, l'utilisation de grands modèles nationaux augmente effectivement de manière significative, et les grands modèles d'IA chinois deviennent effectivement de plus en plus compétitifs à l'étranger.
En parlant de la possibilité d'une concurrence frontale avec les grandes sociétés Internet, Yan Junjie a déclaré que ce qu'il peut faire, c'est amplifier à l'infini les choses qui ont le potentiel de devenir plus fortes. L'une est de savoir comment améliorer la technologie, et l'autre est de savoir comment. avoir une meilleure coopération avec les utilisateurs Créer.