Meta hat sich mit der King Abdullah University of Technology (KAUST) in Saudi -Arabien zusammengetan, um eine neue Reihe von Videodiffusionsmodellen namens Mardini zu starten. Dieses Modell kann eine Vielzahl von Aufgaben der Videogenerierung effizient ausführen, einschließlich Video-Interpolation, Image-zu-Video-Konvertierung und Videoerweiterung, wodurch der hochwertige Videoerstellungsprozess erheblich vereinfacht wird. Mardini verwendet eine Kombination von Planungsmodellen und generativen Modellen, um qualitativ hochwertige Videos mit weniger Schritten durch MAD-Methoden (Mask Autoregression) und Diffusionsprozesse zu generieren, wodurch erhebliche Vorteile für Leistung und Effizienz gezeigt werden und Videohersteller leistungsstarke Tools und neue Branchen-Benchmarks einstellen.
Basierend auf dem letzten Jahr bemühte sich Meta weiter im Bereich, KI -Videos zu generieren. Zuvor wurde Text-to-Video- und Bearbeitungsmodelle wie Emu Video und Emu Edit auf den Markt gebracht. In diesem Jahr wurde auch der erweiterte Video -Editor -Film Gen gestartet. Dies zeigt, dass Meta dazu verpflichtet ist, Videodaten mit leistungsfähigeren Tools zu bieten.
Die Kraft von Mardini besteht darin, dass sie Videos basierend auf einer beliebigen Anzahl maskierter Frames generieren und eine Vielzahl von Erzeugungsaufgaben unterstützt, wie z. B. Video-Interpolation, Image-zu-Video-Konvertierung und Videoerweiterung.
Bild zu VideoergebnissenUnter ihnen ist Mardinis Hauptanwendung die Bild-zu-Video-Generation. Diese Funktion wird unter Verwendung eines Referenzrahmens demonstriert, der in der Mitte als bedingte Eingabe platziert ist und 16 zusätzliche Rahmen erzeugt. Im offiziellen generierten Video-Beispiel können 17 Frames, die bei 8FPS gerendert werden, für glattes 2-Sekunden-Video generiert werden.
VideoerweiterungsergebnisseMit Mardini können Sie auch Ihr Video erweitern, indem Sie vorhandene Videos für eine beliebige Zeitspanne einstellen. Wir fügen jeder Sequenz 12 neue Frames hinzu, indem wir eine 2-Sekunden-Erweiterung aus einem 5-Frame-Referenzvideo generieren.
Video -InterpolationsergebnisseMardini implementiert Video -Interpolation, indem Zwischenrahmen mithilfe der ersten und letzten Frames als Anpassungssignale generiert werden. Wenn diese Grenzrahmen gleich sind, kann Mardini nahtlose Loop -Videos erstellen.
Wie Mardini funktioniert, ist sehr interessant. Es wird fortschrittliche und effiziente Videogenerierungstechnologie verwendet, die hauptsächlich aus zwei Teilen besteht: Planungsmodell und Generativmodell. Zunächst verwendet das Planungsmodell die Methode der Maskenautoregression (MAR), um Eingabeberahmen mit geringer Auflösung zu interpretieren und Leitliniensignale für die Rahmen zu generieren, die erstellt werden müssen. Das leichte generative Modell erzeugt dann durch den Diffusionsprozess hochauflösende detaillierte Frames, um sicherzustellen, dass das endgültige Video glatt und visuell gut ist.
Im Gegensatz zu vielen Videomodellen, die komplexe vorgebildete Bildmodelle erfordern, behauptet Mardini, mit nicht beleidigten Videodaten von Grund auf neu trainiert zu werden. Dies liegt daran, dass es eine progressive Trainingsstrategie anwendet, mit der das Modell mit unterschiedlichen Rahmenkonfigurationen besser fertig werden kann, indem die Maskierungsmethode von Frames während des Trainings flexibel angepasst wird.
Ein charakteristisches Merkmal von Mardini ist seine Flexibilität und Leistung. Es ist nicht nur leistungsfähig, sondern auch effizient, geeignet für größere Aufgaben. Dieses Modell kann eine Vielzahl von Aufgaben wie Video-Interpolation, Bild-zu-Video-Erzeugung und Videoerweiterung erledigen, unabhängig davon, ob es vorhandene Videoclips glättet oder eine vollständige Sequenz von Grund auf neu erstellt.
In Bezug auf die Leistung setzt Mardini neue Benchmarks, um qualitativ hochwertige Videos mit weniger Schritten zu generieren, was die Kosten und zeitlich besser als komplexere Alternativen macht. "Unsere Forschung zeigt, dass unsere Modellierungsstrategie die Wettbewerbsfähigkeit in einer Vielzahl von Interpolations- und Animationsbenchmarks zeigt und gleichzeitig die Rechennachfrage auf vergleichbare Parameterskalen verringert", so die offizielle Forschungsarbeit.
Projekteingang: https://mardini-vidgen.github.io/
Schlüsselpunkte:
Mardini ist ein von Meta und Kaust gestarteter Videogenerierungsmodell für die neue Generation, mit dem eine Vielzahl von Aufgaben zur Erstellung von Videoerstellung problemlos ausgeführt werden kann.
Dieses Modell erreicht durch die Kombination von Planungs- und Generierungsmodellen eine effiziente Video-Interpolation und Bild-zu-Video-Generierung.
Mardini erzeugt hochwertige Videos mit weniger Schritten, was die Flexibilität und Effizienz der Schöpfung erheblich verbessert.
Kurz gesagt, die Entstehung von Mardini ist ein erheblicher Fortschritt in der Videogenerierungstechnologie, wobei die effiziente Leistung und flexible Anwendungsszenarien auf dem Gebiet der Videoerstellung neue Möglichkeiten bringen. In Zukunft kann Mardini eine größere Rolle bei der Filmproduktion, der Animationsproduktion und anderen Bereichen spielen, die die Videogenerierung erfordern.