ByteDance, Kuaishou Video KI-Kopf-an-Kopf-Konfrontation: Es gibt Unterschiede im Verstehen, Erfassen und Vorstellen

Autor：Eve Cole Aktualisierungszeit：2025-02-09 23:48:02

ByteDance und Kuaishou, die beiden Kurzvideo-Giganten, stehen sich im Bereich KI einer direkten Konfrontation gegenüber.

Am 8. November gab Dream AI, eine KI-Content-Plattform im Besitz von ByteDance, bekannt, dass Seaweed, ein von ByteDance entwickeltes Videogenerierungsmodell, offiziell für Plattformbenutzer zugänglich ist. Laut ByteDance ist das diesmal zur Verwendung freigegebene Sitzsack-Videogenerierungsmodell Seaweed die Standardversion dieses Modells. Es dauert nur 60 Sekunden, um ein hochwertiges KI-Video von 5 Sekunden zu generieren, was 3 bis 5 Minuten voraus ist Alle inländischen Industriestandards. Erfordert Generierungszeit.

Reporter von „Daily Economic News“ führten tatsächliche Tests mit der ersten und der neuesten Version von Jimeng und Keling durch und stellten fest, dass die Videoerzeugungseffekte der beiden Produkte in vielerlei Hinsicht und in unterschiedlichem Maße verbessert wurden Layout und Bilddetails sind genauer und die Anpassung des generierten Inhaltseffekts ist flexibler und bequemer. Jimeng bietet Vorteile bei der Generierungszeit und im Videostil.

Visuelles China

Ein großer Modelltechniker sagte Reportern, dass es für Videogenerierungsmodelle schwierig sei, unterschiedliche „Stile“ von Produktionsinhalten zu erreichen: „Neben der Technologie hängt es auch hauptsächlich von der Fülle der Datenquellen ab.“

Führen Sie mehrere Iterationen in kurzer Zeit durch

Mit der Eröffnung des von ByteDance selbst entwickelten Videogenerierungsmodells Seaweed trat das interessanteste Paar im heimischen Videogenerierungsmodellwettbewerb – Ji Meng und Ke Ling – endlich offiziell gegeneinander an.

Sie verfolgen beide den „KI-Traumgestaltungsplan“, die physische Welt so weit wie möglich zu verstehen und gleichzeitig die „Realität“ abzuleiten. Aber für sich selbst tragen Ji Meng und Ke Ling auch die Verantwortung für die Entwicklungsperspektiven von ByteDance.

Tatsächlich haben sowohl Jimeng als auch Keling mehrere Iterationen in weniger als einem Jahr abgeschlossen. Jimeng begann Ende März mit internen Tests der Videogenerierungsfunktion. ByteDance veröffentlichte zwei Videogenerierungsmodelle der Doubao-Modellfamilie, Seaweed und Pixeldance, und lud zu kleinen Tests durch Jimeng AI und Volcano Engine ein Seaweed steht Plattformbenutzern offen. Offiziell geöffnet.

Pan Helin, Mitglied des Expertenausschusses für Informations- und Kommunikationswirtschaft des Ministeriums für Industrie und Informationstechnologie, sagte dem Reporter von „Daily Economic News“, dass die Generierungsgeschwindigkeit des von Jimeng verwendeten neuen Modells verbessert wurde, was den Benutzern ein besseres Ergebnis bietet Generationserfahrung. „Jimeng AI ist derzeit im Bereich der heimischen Generation immer noch relativ führend.“

Keling wurde nach seiner „Geburt“ im Juni zum Blockbuster und erlebte mehr als zehn Updates, darunter die Veröffentlichung der Tusheng-Videofunktion und die Einführung des 1.5-Modells. Derzeit hat Keling mehr als 3,6 Millionen Nutzer, hat insgesamt 37 Millionen Videos generiert und wird in naher Zukunft offiziell eine unabhängige App (Anwendungssoftware) auf den Markt bringen.

Der „Daily Economic News“-Reporter wählte 5 von OpenAI offiziell angekündigte Sora-Video-Eingabewörter aus (Dame auf den Straßen von Tokio, Astronautin, Küste aus Drohnenperspektive, 3D-animiertes kleines Monster, junger Mann beim Lesen in der Wolke) und testete sie separat Die erste und die neueste Version von Menghe Keling vergleichen vertikal die Videoeffekte der beiden Videogenerationsmodelle.

Nach dem Vergleich der von Jimengs Originalversion und der neuesten Version erzeugten Videoeffekte stellte der Reporter fest, dass es zwei Teile von Jimengs Aktualisierungen gibt, die offensichtlicher sind: Der eine ist die Aufführung dynamischer „Menschen und Dinge“, deren Erfassung und Kohärenz Bewegungen wurden deutlich verbessert. Zum anderen hat auch die differenzierte Darstellung von Bildstilen große Fortschritte gemacht.

Am Beispiel von „Lady on the Streets of Tokyo“ waren die Bewegungen der von Yume der ersten Generation geschaffenen Charaktere steif, insbesondere bei der Erfassung der Bein- und Fußbewegungen, und der Gesamteffekt war verschwommen und verzerrt. Die iterierte neue Version von Ji Meng zeichnet sich durch natürliche und sanfte Charakterbewegungen aus und die detaillierte Verarbeitung der Fußdynamik ist klarer und entspricht eher der Logik der realen Welt.

Es gibt einen offensichtlichen Unterschied zwischen einem Traum und einem Geist

Nach der Iteration der beiden Modelle sind die erzeugten Effekte stabiler, die Bildqualität besser und die Glätte und Detailverarbeitung halten einer Prüfung besser stand. Sie weisen jedoch immer noch offensichtliche Unterschiede im semantischen Verständnis, in der Schlüsselworterfassung und -verstärkung sowie im Gleichgewicht zwischen kreativer Vorstellungskraft und kreativer Relevanz auf.

Horizontaler Vergleich, Vergleich der neuesten Version von Jimeng und des 1,5-Modells von Keling, um die Präsentation von 5 Sora-Video-Eingabeaufforderungswörtern zu vergleichen. Das Verständnis der Semantik und das Erfassen von Schlüsselwörtern machen die Videopräsentation von Jimeng und Keling anders.

Im Video „Küste aus der Drohnenperspektive“ hat Ji Meng die „Insel mit Leuchtturm“ im Aufforderungswort relativ verwischt, und egal, ob es sich um Ke Ling oder Sora handelte, der Fokus dieser Szene lag auf „Insel“. In der Beschreibung von „Coast Highway“ entspricht die Traumkulisse nicht der Logik der realen Welt.

Im Videoeffekt von „Astronaut“ beschrieb Ji Meng das „Abenteuer“ in der Beschreibung nicht. Nach der Regeneration ignorierte der Astronaut beim Kaffeetrinken und beim Motorradfahren auch die „Abenteuer“-Einstellung. Ke Ling betont das „Abenteuer“ durch die Mimik und Kamerabewegungen der Charaktere. Allerdings haben sowohl Ji Meng als auch Ke Ling die „Filmtrailer“-Einstellung weitgehend ignoriert. Im Gegensatz dazu wirkt Soras „Spaceman“-Video eher filmisch.

In der Videogeneration „3D-animiertes kleines Monster“ ist die Kulisse von Ji Mengs kleinem Monster fast die gleiche wie die der Figur „Sally“ im Animationsfilm „Monsters, Inc.“ Auch die Beschreibung des kleinen Monsters in den prompten Worten, also die Darstellung des Traums, ist relativ ungenau, ebenso wie die Umsetzung der „Kurzhaar“-Einstellung. Darüber hinaus betonen die prompten Worte in Bezug auf die Darstellung des künstlerischen Stils „Licht und Textur“, d. h. die Umsetzung von Träumen ist schwächer als die von Ke Ling.

Im Video „Lady on the Streets of Tokyo“ ist Ji Mengs Leistung bei der Darstellung komplexer Interaktionen mit mehreren Subjekten im Vergleich zu Ke Ling schlecht. Sowohl die „Dame“, die das Motiv des Bildes ist, als auch die Beschreibung des Raumes sind relativ genau, die Fußgänger auf dem Bild sind jedoch im Allgemeinen unscharf und die Fußgänger in der Nahaufnahme sind verzerrt.

Jimeng AI gab jedoch offiziell bekannt, dass die Pro-Versionen der Videogenerationsmodelle Seaweed und Pixeldance in naher Zukunft zur Verwendung verfügbar sein werden. Das Modell der Pro-Version optimiert die Multi-Subjekt-Interaktion und die Kohärenz von Multi-Shot-Aktionen und überwindet gleichzeitig Probleme wie die Konsistenz des Multi-Shot-Wechsels.

In Bezug auf Funktion und Erfahrung hat Keling nach mehreren Iterationsrunden Anpassungen an den Parametern „kreative Vorstellungskraft und kreative Relevanz“ bei der Erstellung von Videos vorgenommen, sodass Balance-Anpassungen vorgenommen werden können. Ke Ling kann auch Inhalte festlegen, die Sie nicht präsentieren möchten, z. B. Unschärfe, Collage, Transformation, Animation usw. Der Generierungsvorgang ist flexibler und der Effekt kann angepasst werden.

Nach dem Test ist die Zeit für die Erzeugung des Traumvideos kürzer. Die Zeit für die Erzeugung des Traumvideos von Soras 5 Aufforderungswörtern beträgt jeweils nicht mehr als eine halbe Minute. Allerdings dauert es mit dem 1,5-Zoll-Modell mehr als 10 Minuten, um ein 10-Sekunden-Video in hoher Qualität zu erstellen.

Es ist zu beachten, dass die oben genannten von Jimeng und Keling erstellten Videos von Reportern getestet und erstellt wurden. Unterschiedliche Versionen und Beschreibungsdetails führen zu Unterschieden in den Effekten der Videogenerierung.

Ein Kampf auf dem Gebiet der KI-Videogenerierung

Für die beiden Kurzvideogiganten ByteDance und Kuaishou sind ihre Gegner im Bereich der KI-Videogenerierung weit mehr als nur einander.

Beispielsweise hat Zhipu, einer der „Sechs kleinen Drachen der KI“, am 8. November sein Videogenerierungstool Qingying aktualisiert. Das aktualisierte Qingying unterstützt die Videogenerierung aus Bildern beliebiger Größe und verfügt über Funktionen zur Mehrkanalgenerierung. Mit demselben Befehl oder Bild können 4 Videos gleichzeitig generiert werden. Darüber hinaus kann Qingying Soundeffekte erzeugen, die zum Bild passen. Diese Soundeffektfunktion wird diesen Monat in der öffentlichen Betaversion eingeführt.

Zuvor, am 31. August, veröffentlichte MiniMax seine erste KI-Modelltechnologie zur Erzeugung hochauflösender Videos, abab-video-1, über die bereits im ersten Monat nach ihrer Einführung häufig berichtet wurde. Laut der offiziellen öffentlichen Darstellung von MiniMax stieg die Zahl der Besuche der Webversion von Conch AI im ersten Monat nach der Einführung des Videomodells um mehr als 800 %. Benutzer decken mehr als 180 Länder und Regionen auf der ganzen Welt ab Das Produkt belegte im September den ersten Platz in der Liste der KI-Produkte (Web). Es belegt den ersten Platz in der Liste der globalen Wachstumsraten und der Liste der inländischen Wachstumsraten.

Wang Peng, ein assoziierter Forscher am Institut für Management der Pekinger Akademie der Sozialwissenschaften, wies den Reporter von „Daily Economic News“ darauf hin, dass sich KI-Videoprodukte im In- und Ausland derzeit in einer Phase rasanter Entwicklung und ausländischer Technologie befinden Giganten wie Meta und Google sind im Inland aktiv im Bereich KI-Video tätig, Kuaishou Keling, Jimeng AI und andere Produkte werden ebenfalls ständig iterativ aktualisiert, um das Benutzererlebnis und die Kommerzialisierungsmöglichkeiten zu verbessern.

In Bezug auf die Kommerzialisierungsmöglichkeiten wurde in einem im August dieses Jahres von Soochow Securities veröffentlichten Forschungsbericht erwähnt, dass unter der neutralen Annahme einer KI-Penetrationsrate von 15 % der potenzielle Raum für Chinas KI-Videoerzeugungsindustrie 317,8 Milliarden Yuan beträgt. Die Produktionskosten von Spielfilmen, Langfilmen, Zeichentrickfilmen und Kurztheaterstücken werden im Vergleich zum traditionellen Modell um mehr als 95 % gesenkt.

Die enorme potenzielle Marktgröße und die „Superkraft“ der Kostensenkung und Effizienzsteigerung lassen sich auch anhand der Nutzungsdaten von Keling erkennen.

Auf der „2024 China Computer Conference“ im Oktober gab Zhang Di, Vizepräsident von Kuaishou und Leiter des großen Modellteams, bekannt, dass Kuaishou Keling AI seit seiner Veröffentlichung im Juni dieses Jahres mehr als 3,6 Millionen Benutzer hat und eine generiert hat insgesamt 37 Millionen Videos und über 100 Millionen Bilder.

Pan Helin sagte in einem Interview mit einem Reporter von „Daily Economic News“, dass Keling von Kuaishou unterstützt wird und über Verkehrsunterstützung verfügt, sodass der Kommerzialisierungsprozess sehr schnell erfolgt. „KI-Videoprodukte müssen weiterhin von der Internetplattform unterstützt werden. Nur mit.“ Verkehr können sie kommerzielles Potenzial haben.

Auch ByteDance hat die Kommerzialisierung von Videomodellen ganz oben auf seine Aufgabenliste gesetzt. Als im September dieses Jahres zwei Videogenerierungsmodelle auf den Markt kamen, erklärte Tan Dai, Präsident von Volcano Engine, öffentlich, dass das neue Beanbag-Videogenerierungsmodell „seit seiner Einführung über eine Kommerzialisierung nachdenkt.“ Zu den Einsatzbereichen gehören E-Commerce-Marketing und Animation Bildung, städtischer Kulturtourismus und Mikroskripte.

„KI-Video wird auf der B-Seite und auf der C-Seite unterschiedliche Kommerzialisierungspotenziale aufweisen.“ Wang Peng ist davon überzeugt, dass KI-Video Unternehmen auf der C-Seite effizientere und kostengünstigere Videoproduktions- und Vertriebslösungen bieten kann Auf der anderen Seite kann KI-Video die Bedürfnisse der Benutzer nach personalisierten, qualitativ hochwertigen Videoinhalten erfüllen und kann auch mit E-Commerce, Werbung und anderen Branchen kombiniert werden, um eine präzisere Vermarktung und Monetarisierung zu erreichen.