Shengshu Technology Video Generation Model Vidu Version 1.5 Release überwindet das Problem der "Multi -Subject -Konsistenz" - AI -Artikel

Autor：Eve Cole Aktualisierungszeit：2025-02-12 03:32:01

Mehr als hundert Tage nach dem Start von Vidu hat die Shengshu-Technologie VIDU Version 1.5 großartig eingeführt, was einen weltweit führenden Durchbruch beim Verständnis diversifizierter Inputs und der Lösung des Problems der "Konsistenz" erzielt hat. Dies markiert den Eintritt visueller Modelle in die "Kontext" -Ara und bildet eine solide Grundlage für die beschleunigte Entwicklung der allgemeinen künstlichen Intelligenz (AGI). VIDU 1.5 ist kein einfaches funktionales Upgrade, sondern eine Reflexion der Entstehung der visuellen Modellinformation.

Mehr als 100 Tage nach dem Start von VIDU kündigte Shengshu Technology stolz die Einführung der neuen Version von VIDU1.5 an, die einen Durchbruch auf dem weltweit führenden Niveau erzielte, insbesondere beim Verständnis von diversifizierten Inputs und beim Durchbruch des "Konsistenz" -Problems.

Der Start von VIDU1.5 markiert den Eintritt visueller Modelle in eine neue Ära des "Kontextes" und beschleunigt die Ankunft der allgemeinen künstlichen Intelligenz (AGI). Vidu kann zu Beginn seines globalen Starts konsequent Zeichen erzeugen und wichtige Schmerzpunkte in der Videogenerierung gelöst, indem sie die Gesichtszüge der Charaktere verkleinern. Im September war VIDU der erste der Welt, der die Funktion "Subjektkonsistenz" veröffentlichte, die Gesichtskonsistenz auf die Ganzkörperkonsistenz ausdehnte und den Bereich auf jedes Subjekt wie Tiere, Objekte und virtuelle Charaktere ausdehnte. Die technologischen Durchbrüche von VIDU spiegeln sich hauptsächlich in drei Aspekten wider: genaue Kontrolle komplexer Probanden, natürliche Konsistenz von Gesichtsmerkmalen und dynamischen Ausdrücken und multi-subjekt-Konsistenz.

微信截图_20241113135537.png

微信截图_20241113135531.png

VIDU1.5 zeigt die neue "Intelligenzentwicklung" visueller Modelle und demonstriert seine leistungsstarke Fähigkeit zur Lernfähigkeit des Kontextes. Dies bedeutet, dass das visuelle Modell nicht nur die Fähigkeit hat zu verstehen und sich vorzustellen, sondern auch während des Erzeugungsprozesses das Gedächtnis verwalten kann. VIDU1.5 setzt seine branchenführende Erzeugungseffizienz fort und generiert ein Video in weniger als 30 Sekunden. VIDU hält sich an das Konzept der Universalität, eine Designphilosophie, die mit LLM (großes Sprachmodell) übereinstimmt, alle Probleme in Probleme mit visueller Eingabe und visueller Ausgabe, verwendet einen einzelnen Transformator, um Eingang und Ausgabe gleichmäßig modellieren zu variabler Länge und verwendet eine einzelne Transformator zur Vereinheitlichung der Modellierung von Ein- und Ausgabe von variabler Länge und aus den Videodaten erhalten Intelligenz in der Komprimierung.

Der Start von VIDU1.5 verbessert nicht nur die Kontrollierbarkeit des Videomodells, sondern erreicht auch die konsistente Erzeugung mehrerer Winkel, mehrerer Probanden und mehrerer Elemente durch flexible und unterschiedliche Eingaben. Dies markiert die Entstehung visueller Intelligenz und beschleunigt die Ankunft von AGI. VIDU ist nicht mehr nur ein hochwertiger und effizienter Videogenerator, sondern kann auch Kontextinformationen und Speicher in den Erzeugungsprozess einbeziehen. Das visuelle Modell verfügt über stärkere kognitive Fähigkeiten und wird zu einem wichtigen Rätsel für AGI.

Erfahrung Adresse: www.vidu.studio

Die Freisetzung von VIDU 1.5 ist nicht nur ein technologischer Durchbruch, sondern auch ein Meilenstein -Fortschritt auf dem Gebiet der visuellen Intelligenz. Es bietet neue Möglichkeiten für die zukünftige Entwicklung von AGI, und es lohnt sich, sich auf seine Anwendung und Innovation in weiteren Bereichen zu freuen. Willkommen zu besuchen und erleben Sie den Charme der visuellen Intelligenz!