Tencent AI Lab und Tencent PCGs ARC Lab haben gemeinsam ein neues Framework namens StereoCrafter veröffentlicht. Diese Technologie kann gewöhnliche 2D-Videos in hochauflösende stereoskopische 3D-Videos umwandeln und so das immersive Erlebnis revolutionieren. StereoCrafter nutzt Deep-Learning-Technologie, um die Einschränkungen herkömmlicher 3D-Videokonvertierungsmethoden zu überwinden, den Generierungseffekt erheblich zu verbessern und sich an die High-Fidelity-Anforderungen verschiedener Anzeigegeräte anzupassen, um der wachsenden Nachfrage nach 3D-Inhalten gerecht zu werden.
Kürzlich haben Tencent AI Lab und Tencent PCGs ARC Lab gemeinsam ein neues Framework namens StereoCrafter auf den Markt gebracht, das gewöhnliche 2D-Videos in stereoskopische 3D-Videos mit hoher Wiedergabetreue konvertieren kann.
Diese Innovation reagiert auf die wachsende Nachfrage nach 3D-Inhalten, insbesondere im Bereich immersiver Erlebnisse. StereoCrafter nutzt die Vorteile des Basismodells voll aus, überwindet die Einschränkungen herkömmlicher Konvertierungsmethoden, verbessert den Generierungseffekt erheblich und stellt sicher, dass der generierte Inhalt die High-Fidelity-Anforderungen verschiedener Anzeigegeräte erfüllen kann.
Der Kern des Systems ist in zwei Hauptschritte unterteilt. Der erste Schritt besteht darin, das Video basierend auf Tiefeninformationen neu zuzuordnen, Okklusionsinformationen zu extrahieren und gleichzeitig eine Videotransformation durchzuführen. Der zweite Schritt besteht darin, das stereoskopische Video zu reparieren. Das System verwendet ein vorab trainiertes stabiles Videodiffusionsmodell als Grundlage und führt ein Feinabstimmungsprotokoll für die stereoskopische Video-Inpainting-Aufgabe ein. Um Videoeingaben unterschiedlicher Länge und Auflösung verarbeiten zu können, untersuchte das Team außerdem autoregressive Strategien und Slicing-Verarbeitungstechniken, um sicherzustellen, dass sich das System flexibel an verschiedene Eingabebedingungen anpassen kann.
Zur Unterstützung der Schulung baute das Team eine hochentwickelte Datenverarbeitungspipeline auf, die umfangreiche, qualitativ hochwertige Datensätze generierte. Während des Datensatzerstellungsprozesses wählte das Forschungsteam aus einer großen Anzahl stereoskopischer Videos aus und generierte entsprechende Videotiefe, transformierte Video- und Okklusionsinformationen, um sicherzustellen, dass das Video auf der rechten Seite als echter Maßstab dient. Diese innovativen Methoden bieten praktische Lösungen für die Konvertierung von 2D-Videos in 3D-Videos, sodass Apple Vision Pro und andere 3D-Anzeigegeräte ein aufregenderes, immersives Erlebnis bieten können.
StereoCrafter ist nicht nur ein technologischer Durchbruch, es bringt auch potenzielle Veränderungen in der Art und Weise mit sich, wie digitale Medien erlebt werden, und möglicherweise auch die Art und Weise, wie wir digitale Inhalte ansehen und erleben.
Projekteingang: https://stereocrafter.github.io/
Höhepunkte:
StereoCrafter nutzt neue Technologie, um 2D-Videos effizient in immersive stereoskopische 3D-Videos umzuwandeln.
Das System ist in zwei Hauptschritte unterteilt: Tiefenvideorekonstruktion und stereoskopische Videoreparatur zur Verbesserung des Erzeugungseffekts.
Das Forschungsteam erstellte hochwertige Datensätze, um das Algorithmentraining zu unterstützen und die Ausgabequalität sicherzustellen.
Das Aufkommen von StereoCrafter stellt einen großen Sprung in der 2D-zu-3D-Videokonvertierungstechnologie dar. Seine effiziente Konvertierungseffizienz und High-Fidelity-Ausgabequalität werden die Erstellung und den Konsum von 3D-Inhalten erheblich bereichern und den Benutzern ein noch intensiveres audiovisuelles Erlebnis bieten. Es wird erwartet, dass diese Technologie in Zukunft in Filmen, Spielen, virtueller Realität und anderen Bereichen weit verbreitet sein wird.