Beijing TuSimple Future Technology Co., Ltd. veröffentlichte am 17. Dezember 2024 offiziell sein erstes großes „TuSimple Video“-Modell – „Ruyi“ – und stellte die Ruyi-Mini-7B-Version als Open-Source-Version zur Verfügung. Dieses Modell wurde speziell für Grafikkarten der Verbraucherklasse entwickelt und bietet einen bequemen Bereitstellungs- und Verwendungsprozess. Es bietet eine gute Leistung zwischen Frames und Bewegungsglätte und stellt ein leistungsstarkes kreatives Werkzeug für Animations- und Spieleentwickler dar. Es unterstützt die Erstellung von Videos mit mehreren Auflösungen und unterschiedlicher Dauer und verfügt über eine Vielzahl von Steuerungsfunktionen, die den Zyklus und die Kosten der Inhaltserstellung effektiv reduzieren können. Dies stellt einen wichtigen Schritt für TuSimple im Bereich der Anwendung von KI-Technologie dar und bietet ACG-Enthusiasten auch ein neues kreatives Erlebnis.
Beijing TuSimple Future Technology Co., Ltd. veröffentlichte am 17. Dezember 2024 offiziell sein erstes großes „TuSimple Video“-Modell – „Ruyi“ – und stellte die Ruyi-Mini-7B-Version als Open Source zur Verfügung, damit Benutzer sie von der Huggingface-Plattform herunterladen und verwenden können . TuSimple wurde 2015 gegründet und hat seinen Hauptsitz in San Diego, Kalifornien, USA. Das Unternehmen konzentriert sich auf die Anwendung von KI-Technologie in verschiedenen Branchen, darunter Animationsspiele und Transportindustrie.
Das große Ruyi-Modell ist für den Betrieb auf Consumer-Grafikkarten konzipiert und bietet detaillierte Bereitstellungsanweisungen und einen ComfyUI-Workflow, um Benutzern einen schnellen Einstieg zu ermöglichen. Mit seiner hervorragenden Leistung in Bezug auf Bild-zu-Bild-Konsistenz, Bewegungsglätte, Farbdarstellung und Komposition bietet dieses Modell neue Möglichkeiten für das visuelle Geschichtenerzählen und führt Deep Learning für Animations- und Spielszenen durch, was es zu einem idealen kreativen Partner für ACG-Enthusiasten macht.
Das Ruyi-Modell unterstützt die Generierung mehrerer Auflösungen und mehrerer Dauern und kann Auflösungen von 384 x 384 bis 1024 x 1024, jedes Seitenverhältnis und eine Videogenerierung mit bis zu 120 Bildern/5 Sekunden verarbeiten. Es unterstützt außerdem die Generierung der ersten Frame-, First- und Last-Frame-Steuerung, Bewegungsamplitudensteuerung und fünf Objektivsteuerungen. Ruyi basiert auf der DiT-Architektur und besteht aus dem Casual VAE-Modul und dem Diffusion Transformer. Die Gesamtparametergröße beträgt etwa 7,1 Milliarden und es werden etwa 200 Millionen Videoclips für das Training verwendet.
Obwohl Ruyi in der Technologie erhebliche Fortschritte gemacht hat, gibt es immer noch einige Mängel, wie z. B. Deformationen der Hand, Zusammenbruch der Gesichtsdetails bei mehreren Personen und unkontrollierbare Übergänge. TuSimple arbeitet hart daran, diese in zukünftigen Updates zu verbessern.
Mit Blick auf die Zukunft plant TuSimple, sich weiterhin mit den Anforderungen der Szene zu befassen, Durchbrüche bei der direkten Generierung von CUT zu erzielen und in der nächsten Version zwei Versionen bereitzustellen, um den Anforderungen verschiedener Entwickler gerecht zu werden. Das Unternehmen ist bestrebt, große Modelle zu verwenden, um den Entwicklungszyklus und die Kosten für Animations- und Spielinhalte zu verkürzen. Große Modelle von Ruyi können nach der Eingabe von Schlüsselbildern bereits 5 Sekunden Inhalt generieren, oder sie geben zwei Schlüsselbilder ein und das Modell generiert Zwischenübergangsinhalte. Verkürzung des Entwicklungszyklus.
Link „Umarmendes Gesicht“:
https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
Alles in allem hat die Open-Source-Veröffentlichung von Ruyis großem Modell neue Möglichkeiten für die Animation und Spieleerstellung eröffnet. Obwohl es einige Mängel gibt, lohnt es sich, auf die weitere Optimierung und Verbesserung des Modells durch TuSimple zu blicken nachfolgende Versionen.