Beijing TuSimple Future Technology Co., Ltd. secara resmi merilis model besar "TuSimple Video" pertamanya - "Ruyi" pada 17 Desember 2024, dan versi Ruyi-Mini-7B menjadi sumber terbuka. Model ini dirancang khusus untuk kartu grafis tingkat konsumen, memberikan proses penerapan dan penggunaan yang mudah. Model ini berkinerja baik dalam hal konsistensi antar-frame dan kehalusan gerakan, serta menyediakan alat kreatif yang hebat bagi pembuat animasi dan game. Ini mendukung pembuatan video multi-resolusi dan multi-durasi dan memiliki berbagai fungsi kontrol, yang secara efektif dapat mengurangi siklus dan biaya pembuatan konten. Hal ini menandai langkah penting bagi TuSimple di bidang penerapan teknologi AI, dan juga menghadirkan pengalaman kreatif baru bagi para penggemar ACG.
Beijing TuSimple Future Technology Co., Ltd. secara resmi merilis model besar "TuSimple Video" pertamanya - "Ruyi" pada 17 Desember 2024, dan menjadikan versi Ruyi-Mini-7B open source untuk diunduh dan digunakan pengguna dari platform pelukan . TuSimple didirikan pada tahun 2015 dan berkantor pusat di San Diego, California, AS. TuSimple berfokus pada penerapan teknologi AI di berbagai industri, termasuk game animasi dan industri transportasi.
Model besar Ruyi dirancang untuk berjalan pada kartu grafis tingkat konsumen, dan memberikan instruksi penerapan terperinci dan alur kerja ComfyUI untuk memungkinkan pengguna memulai dengan cepat. Dengan performa luar biasa dalam konsistensi frame-to-frame, kehalusan gerakan, presentasi warna, dan komposisi, model ini memberikan kemungkinan baru untuk pengisahan cerita visual dan melakukan pembelajaran mendalam untuk adegan animasi dan game, menjadikannya mitra kreatif yang ideal bagi para penggemar ACG.
Model Ruyi mendukung pembuatan multi-resolusi dan multi-durasi, dan dapat menangani resolusi dari 384×384 hingga 1024×1024, rasio aspek apa pun, dan pembuatan video hingga 120 frame/5 detik. Ini juga mendukung pembuatan kontrol bingkai pertama, bingkai pertama dan terakhir, kontrol amplitudo gerakan, dan lima kontrol lensa. Ruyi didasarkan pada arsitektur DiT dan terdiri dari modul Casual VAE dan Diffusion Transformer. Ukuran parameter totalnya sekitar 7,1B, dan menggunakan sekitar 200 juta klip video untuk pelatihan.
Meskipun Ruyi telah membuat kemajuan yang signifikan dalam teknologi, masih ada beberapa cacat, seperti kelainan bentuk tangan, detail wajah yang runtuh saat ada banyak orang, dan transisi yang tidak terkendali. TuSimple bekerja keras untuk meningkatkan dan memperbaikinya di pertanyaan pembaruan mendatang.
Ke depan, TuSimple berencana untuk terus menyelidiki kebutuhan adegan, mencapai terobosan dalam menghasilkan CUT secara langsung, dan menyediakan dua versi pada rilis berikutnya untuk memenuhi kebutuhan pembuat konten yang berbeda. Perusahaan berkomitmen untuk menggunakan model besar untuk mengurangi siklus pengembangan dan biaya animasi dan konten game. Model besar Ruyi sudah dapat menghasilkan konten 5 detik setelah memasukkan bingkai kunci, atau memasukkan dua bingkai kunci dan model akan menghasilkan konten transisi perantara, mengurangi siklus pembangunan.
Tautan Memeluk Wajah:
https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
Secara keseluruhan, rilis open source dari model besar Ruyi telah membawa kemungkinan baru dalam animasi dan pembuatan game. Meskipun ada beberapa kekurangan, potensi pengembangannya di masa depan sangat besar. Perlu dinantikan untuk pengoptimalan dan peningkatan lebih lanjut dari model tersebut versi berikutnya.