Die ShanghaiTech University hat ein bahnbrechendes KI-Modell namens CLAY entwickelt, das detaillierte 3D-Objekte basierend auf Textbeschreibungen oder zweidimensionalen Bildern generieren kann. Mit seiner effizienten Generierungsgeschwindigkeit und hochwertigen Ausgabe hat CLAY großes Potenzial im Bereich der 3D-Modellierung gezeigt und wird voraussichtlich Branchen wie Spieleentwicklung, Filmproduktion und 3D-Druck revolutionieren. Der Kern des CLAY-Modells liegt im Variations-Autoencoder und Diffusionstransformator mit mehreren Auflösungen. Er kann 3D-Inhalte ohne Konvertierung in 2D-Bilder direkt verarbeiten und unterstützt Benutzer bei der präzisen Steuerung der generierten Ergebnisse durch benutzerdefinierte Formen oder Begrenzungsrahmen, was eine leistungsstarke Flexibilität darstellt.
Wissenschaftler der ShanghaiTech University haben kürzlich ein künstliches Intelligenzmodell namens CLAY entwickelt, das detaillierte 3D-Objekte aus Textbeschreibungen oder 2D-Bildern generieren kann. Im Vergleich zu früheren Technologien hat CLAY bedeutende Durchbrüche in der Qualität und Vielfalt der generierten 3D-Objekte erzielt.
Der Kern des CLAY-Modells umfasst einen Variational-Autoencoder (VAE) mit mehreren Auflösungen und einen Diffusionstransformator (DiT). VAE ist für die Kodierung von 3D-Geometrien auf verschiedenen Detailebenen im latenten Raum verantwortlich, während DiT für die Generierung dieser Geometrien verantwortlich ist. Im Gegensatz zu vielen anderen Systemen ist CLAY in der Lage, 3D-Inhalte direkt zu verarbeiten, ohne sie zunächst in 2D-Bilder zu konvertieren.
Die Trainingsdaten von CLAY umfassen mehr als 500.000 3D-Modelle und decken ein breites Spektrum an Objekten ab, von einfachen Alltagsgegenständen bis hin zu komplexen Fantasiewesen. Darüber hinaus bietet CLAY auch die Möglichkeit, durch zusätzliche Eingaben eine präzise Kontrolle über die generierten Ergebnisse zu erreichen, indem sie grobe Formen (z. B. Voxelstrukturen, Punktwolken) oder Begrenzungsrahmen festlegen. Diese Flexibilität ermöglicht es CLAY, ganze Stadtszenen zu erstellen und sogar detaillierte 3D-Modelle aus handgezeichneten Skizzen zu rekonstruieren.
Im Vergleich zu anderen Systemen (wie Shap-E, DreamFusion, Wonder3D) zeigt CLAY klare Vorteile. Unabhängig davon, ob Text in 3D oder ein Bild in 3D konvertiert wird, kann CLAY konsistentere geometrische Formen, glattere Oberflächen und feinere Details erzeugen. CLAY ist auch unglaublich schnell bei der Erstellung hochwertiger 3D-Assets und benötigt nur etwa 45 Sekunden, während die Optimierung einiger Vergleichssysteme Stunden dauern kann.
CLAY hat ein breites Spektrum potenzieller Anwendungen, darunter Spieleentwicklung, Filmproduktion und 3D-Druck. Dennoch sind sich die Forscher der potenziellen Risiken von KI-generierten virtuellen Inhalten bewusst und planen daher, weitere Sicherheitsmaßnahmen hinzuzufügen, um eine verantwortungsvolle Nutzung zu gewährleisten.
Zukünftig planen die Forscher außerdem, die Trainingsdaten weiter zu erweitern, die Modellqualität zu verbessern und Geometriegenerierung und Materialsynthese in einem einzigen Modell zu integrieren, um eine umfassendere Funktionalität zu erreichen. Auf eine Version von CLAY kann über den 3D-Gen-Dienst Rodin zugegriffen werden.
Produkteingang: https://hyperhuman.deemos.com/rodin
Das Aufkommen des CLAY-Modells markiert einen großen Sprung in der 3D-Modellierungstechnologie. Seine effizienten, qualitativ hochwertigen Generierungsfähigkeiten und breiten Anwendungsaussichten machen es zu einem wichtigen Werkzeug im Bereich der zukünftigen 3D-Inhaltserstellung. Mit der kontinuierlichen Weiterentwicklung und Verbesserung der Technologie wird CLAY in Zukunft sicherlich mehr Innovationen und Möglichkeiten in alle Lebensbereiche bringen.