Bei großen Modellen kommt es auf Geschwindigkeit an, aber manchmal kann Langsamkeit auch eine andere Art von Geschwindigkeit sein.
Am 31. August veröffentlichte das inländische KI-Einhornunternehmen MiniMax Shanghai Xiyu Technology Co., Ltd. (im Folgenden als „MiniMax“ bezeichnet) das Videomodell abab-video-1 auf der ersten Entwicklerkonferenz „MiniMaxLink Partner Day“. Mit dem Eingabeaufforderungswort können Videos mit einer Länge von bis zu 6 Sekunden erstellt werden, wobei der Schwerpunkt auf hoher Auflösung und hoher Bildrate liegt.
Mit anderen Worten, das von MiniMax erwähnte Videomodell ähnelt dem Vincent-Videomodell von OpenAIs Sora. Als Gründer und CEO von MiniMax ist Yan Junjie davon überzeugt, dass „schnell“ das Kernziel der technologischen Forschung und Entwicklung des zugrunde liegenden großen Modells des Unternehmens ist. Das Videomodell liegt jedoch mehrere Monate hinter Sora.
„Warum kommt unser Start ein oder zwei Monate zu spät? Der Kern besteht darin, dass wir ein schwierigeres technisches Problem lösen, nämlich wie man Dinge mit relativ hoher Rechenleistung nativ trainieren kann.“ Das sagte ein Reporter von China Business News Bei der Entwicklung von Funktionen zur Videogenerierung müssen Sie zunächst Videos in Token umwandeln. Diese Token werden sehr lang sein und die Komplexität wird höher sein. „Tatsächlich haben wir in der ersten Jahreshälfte vor allem Folgendes getan: Komplexität erhöhen, damit es ein oder zwei Monate zu spät kommt.“
Laut MiniMax schneidet das Videomodell des Unternehmens basierend auf internen Bewertungen und Laufergebnissen besser ab als das von Runway. Derzeit hat Keling ein kommerzielles Modell eines Mitgliedschaftsabonnements eingeführt. Was wird also das Geschäftsmodell des MiniMax-Videomodells sein? In diesem Zusammenhang sagte Yan Junjie: „Unsere Strategie besteht darin, noch ein oder zwei Wochen zu warten. Sobald neue Dinge herauskommen und wir in einem zufriedenstellenderen Zustand sind, können wir einige Kommerzialisierungsmaßnahmen in Betracht ziehen.“
Er erwähnte auch, dass KI-generierte Videos aufgrund der schnellen Weiterentwicklung der Modelle zwar herkömmliche Rendering-Engines nicht ersetzen können, aber „zumindest eine Möglichkeit“ für die Erstellung von 3A-Spielen wie „Black Myth: Wukong“ bieten.
Erwägen Sie eine Kommerzialisierung erst, wenn Sie zufriedener sind
Obwohl der Kommerzialisierungsweg des Videomodells nicht erwähnt wurde, sagte Yan Junjie: „Die Kommerzialisierung des gesamten Unternehmens gliedert sich grundsätzlich in zwei Formen. Eine Form ist unsere offene Plattform, die mittlerweile mehr als 2.000 Kunden hat, darunter viele namhafte.“ Internetunternehmen, darunter auch traditionelle Unternehmen, verfügen bereits über die Möglichkeit, dass Benutzer Ton und Bild so nutzen können wie Kuaishou. Wir sind ein guter Partner, und das ist der 2B-Teil.“
„Das zweite ist, dass unsere eigenen Produkte auch über Werbemechanismen verfügen und Werbung kommerziell monetarisiert werden kann.“ Yan Junjie glaubt, dass „das Wichtigste zum jetzigen Zeitpunkt nicht die Kommerzialisierung ist, sondern die tatsächliche Verfügbarkeit der Technologie.“ Verfügbarkeit.“
KI-generierte Videos (Videomodelle) mit relativ komplexer Technologie sind in diesem Jahr für große Modellhersteller zu einer gängigen Operation geworden, um ihre Stärke zu demonstrieren oder „ihre Muskeln spielen zu lassen“, und OpenAI hat damit begonnen. Im Februar dieses Jahres veröffentlichte OpenAI Sora, ein großes Videomodell, das jedoch noch nicht für öffentliche Tests freigegeben wurde. Im April veröffentlichte Shengshu Technology das große Videomodell Vidu; im Juni veröffentlichte Kuaishou das große Videomodell Keling; im Juli wurde das von Zhipu AI generierte Videomodell Qingying offiziell eingeführt ...
Warum möchte MiniMax ein Videomodell erstellen? Yan Junjie sagte, das Wesentliche sei, dass die meisten Inhalte, die Menschen täglich konsumieren, Bilder, Texte und Videos seien und dass Text keinen großen Anteil daran habe, „um eine sehr hohe Benutzerabdeckung und eine höhere Nutzungstiefe zu erreichen.“ Als großer Modellhersteller besteht der einzige Weg darin, multimodale Inhalte ausgeben zu können, anstatt nur rein textbasierte Inhalte auszugeben. Dies ist ein sehr zentrales Urteil.
Er erwähnte weiter: „Es ist nur so, dass wir vor langer Zeit zuerst Text, dann Töne und Bilder gemacht haben. Jetzt, wo die Technologie stärker geworden ist, (können) wir auch Videos machen. Dieser Weg ist konsistent, er muss multi sein.“ -modal. „Früher hat MiniMax große Sprachmodelle, dann Tonmodelle und dann Bildmodelle erstellt“, aber jetzt ist die Technologie stärker geworden und muss auch Videos erstellen. Modalität".
Laut dem KI-Algorithmus-Ingenieur Zhang Yuxuan hat MiniMax zwar die spezifischen Parameter und technischen Punkte des Videomodells nicht bekannt gegeben, aus dem angezeigten Video zur Modellgenerierung geht jedoch hervor, dass der Algorithmus des Unternehmens immer noch sehr stark ist und Kuaishous Keling relativ technisch ist besser.
Yan Junjie sagte gegenüber Reportern: „Ob es sich um Video, Text oder Ton handelt, die Kernidee des MiniMax-Teams in Forschung und Entwicklung besteht nicht darin, den Algorithmus um 5 % oder 10 % zu verbessern. Wichtiger ist, ob dies möglich ist.“ Wenn es mehrmals verbessert werden kann, dann muss es getan werden, es lohnt sich nicht, es zu tun, wenn es nur um 5 % steigt.“
Es wird davon ausgegangen, dass das Videomodell von MiniMax derzeit nur die erste Version ist und den Benutzern für einen bestimmten Zeitraum kostenlos zur Verfügung gestellt wird. Eine neue Version wird bald verfügbar sein. „Die Folgearbeiten werden sich auf die Daten und den Algorithmus selbst konzentrieren, einschließlich Details, die bequemer zu verwenden sind. Beispielsweise werden derzeit nur textbasierte Videos bereitgestellt. In Zukunft werden bildbasierte Videos, Text+Bild-generierte Videos.“ „, sowie Bearbeitbarkeit und Steuerbarkeit werden nacheinander veröffentlicht“, sagte Yan Junjie.
„Black Myth: Wukong“ ist immer noch beliebt und die KI hat ein neues Gameplay im Spiel geschaffen. Kürzlich wies Google in einem Papier darauf hin, dass sie die erste vollständig KI-gesteuerte Echtzeit-Spiel-Engine entwickelt haben – GameNGen, die die Spielgrafiken des klassischen Schießspiels „Doom“ in Echtzeit mit 20 Bildern pro Sekunde erzeugen kann Spielgrafiken werden in Echtzeit basierend auf Spieleroperationen und der Interaktion mit komplexen Umgebungen generiert, und jeder Frame wird durch das Diffusionsmodell vorhergesagt.
Wird es also noch weit entfernt sein, dass die KI in Echtzeit Meisterwerke der 3A-Spiele generiert? Yan Junjie sagte, dass „Black Myth: Wukong“ immer noch die traditionelle Modellierungs- und Rendering-Methode verwendet. Die Generierung von Videos und Texten sei vor zwei Jahren möglicherweise nicht mehr möglich jetzt verfügbar und entwickelt sich rasant.
„(Videogenerierung) ist eigentlich erst der Anfang, denn dies ist erst das erste Jahr und der Fortschritt wird definitiv sehr schnell sein. Ich weiß nicht, ob es die traditionelle Rendering-Engine ersetzen kann, aber es kann zumindest eine Möglichkeit bieten.“ Denn der Fortschritt ist schnell, auf lange Sicht gilt: Je schneller der Fortschritt, desto besser“, sagte Yan Junjie.
Deutlicher Anstieg der Nutzung und verbesserte Wettbewerbsfähigkeit des Modells
Schnell ist ein Schlüsselwort, das Yan Junjie oft erwähnt hat. „Ob wir MoE, lineare Aufmerksamkeit oder andere Erkundungen durchführen, das Wesentliche ist, das gleiche Effektmodell schneller zu machen.“ zugrunde liegende Forschung und Entwicklung.
Gleichzeitig wies er auch darauf hin, dass die kontinuierliche Reduzierung der Fehlerrate des Modells, unendlich lange Eingaben und Ausgaben sowie Multimodalität drei Herausforderungen seien, die die Branche weiterhin lösen müsse.
Nach Angaben des Unternehmens hat MiniMax in der Vergangenheit zwei wichtige zugrunde liegende Technologieänderungen erlebt, darunter MoE (Mixture of Experts, gemischtes Expertenmodell) und Linear Attention (lineare Aufmerksamkeit). Im April dieses Jahres entwickelte das Unternehmen ein Modell der neuen Generation auf Basis von MoE+ Linear Attention, das mit GPT-4o vergleichbar ist.
Öffentliche Informationen zeigen, dass MiniMax ein im Dezember 2021 gegründetes Start-up-Unternehmen für künstliche Intelligenz ist. Es wurde von Yan Junjie, dem ehemaligen Vizepräsidenten von SenseTime und ehemaligen stellvertretenden Direktor des Forschungsinstituts, gegründet Unternehmen wie SenseTime.
Tianyancha zeigt, dass MiniMax im März dieses Jahres eine Serie-B-Finanzierung in Höhe von 600 Millionen US-Dollar mit Alibaba als Investor abgeschlossen hat und deren Bewertung 2,5 Milliarden US-Dollar erreichte. Zuvor, im Juni 2023, schloss MiniMax eine Serie-A-Finanzierung über 250 Millionen US-Dollar ab und der Investor war Tencent Investment.
Ein Jahr nach seiner Gründung entwickelte MiniMax unabhängig die grundlegende Modellarchitektur für drei Modi: Text-to-Visual, Text-to-Speech und Text-to-Text und baute eine Computational Reasoning-Plattform auf Basis des Basismodells auf.
In Bezug auf die Produkte betreut MiniMax sowohl den B-Seiten- als auch den C-Seiten-Markt. Zu den C-Seiten-Anwendungen gehören die Rollenspiel-KI-Chat-Anwendung Glow, die KI-Social-Software Hoshino, der KI-Sprachgesprächsassistent Conch WeChat usw Die B-Seite bietet maßgeschneiderte Lösungen für Unternehmen. Über die API-Schnittstelle können Unternehmen auf verschiedene Funktionen des ABAB-Modells zugreifen. Unternehmen wie Huoshan Engine, Kingsoft Office, DingTalk, Zhaopin Recruitment und China Literature nutzen seine Dienste. Offizielle Daten zeigen, dass die Modelle von MiniMax derzeit mehr als 3 Milliarden Mal am Tag mit globalen Benutzern interagieren und mehr als 3 Billionen Text-Tokens, 20 Millionen Bilder und 70.000 Stunden Sprache verarbeiten. Vor einem Jahr betrug die MiniMax-Interaktionszeit nur 3 % der ChatGPT, und jetzt ist dieser Anteil auf 53 % gestiegen.
Seit Mai ist im Bereich der großen Modelle ein Preiskampf ausgebrochen, und die APIs sind auf „Kohlpreise“ gesunken. Als er über den Preiskampf bei großen Modellen sprach, wies Yan Junjie darauf hin, dass mit dem Preiskampf viele traditionelle Unternehmen bereit seien, große Modelle zu verwenden, „objektiv gesehen hat dies die Zahl der Modellaufrufe stark erhöht.“
Gleichzeitig fördert dies auch die Verbesserung der Modellleistung. Chinas große Modelle sind auch in Südostasien und anderen überseeischen Ländern wettbewerbsfähig geworden. „Es ist ein so harter Wettbewerb zwischen inländischen Modellen, dass wir vorankommen müssen. Zumindest in nicht englischsprachigen Ländern können wir ein mit GPT vergleichbares Niveau erreichen.“ Yan Junjie sagte, dass der Wettbewerb unvermeidlich sei. Die optimistische Seite zeigt zwei positive Veränderungen: Erstens nimmt die Nutzung großer inländischer Modelle deutlich zu, und zweitens werden chinesische Modelle im Ausland tatsächlich immer wettbewerbsfähiger.
Yan Junjie sagte, dass die meisten Unternehmen dachten, große Modelle seien teuer, aber später dachten viele Leute, dass große Modelle billig seien und bedenkenlos verwendet werden könnten. Am Ende war ich überrascht, dass viele traditionelle Unternehmen sehr bereit sind, große Modelle zu verwenden. Sie denken, dass die Kosten sowieso niedrig sind, und wenn sie Fehler machen, können sie einfach noch einmal anrufen. Objektiv gesehen hat dies die Anzahl der Modellaufrufe erheblich erhöht, wodurch die Leistung des Modells in nicht-englischen Sprachen verbessert wurde. Zumindest ist das Niveau inländischer großer Modelle mit GPT vergleichbar. Aus optimistischer Sicht nimmt daher der Einsatz großer inländischer Modelle tatsächlich erheblich zu, und Chinas große KI-Modelle werden im Ausland tatsächlich immer wettbewerbsfähiger.
Als er über die Möglichkeit eines direkten Wettbewerbs mit großen Internetunternehmen sprach, sagte Yan Junjie, dass er die Dinge, die das Potenzial haben, stärker zu werden, unendlich verstärken kann, und das andere ist, wie man die Technologie verbessert eine bessere Zusammenarbeit mit den Benutzern haben.