Editor Downcodes mengetahui bahwa kemajuan signifikan telah dicapai dalam bidang pembuatan video! Genmo telah membuat model generasi video terbaru Mochi1 menjadi open source, yang memiliki 10 miliar parameter dan merupakan model generasi video terbesar yang saat ini dirilis ke publik. Mochi1 mengadopsi arsitektur Asymmetric Diffusion Transformer (AsymmDiT) yang inovatif, yang sederhana dan mudah dimodifikasi, memberikan kemudahan luar biasa bagi pengembang komunitas sumber terbuka, dan dapat menghasilkan video berkualitas tinggi hingga 5,4 detik dan dengan kecepatan bingkai hingga 30 frame/detik.
Sebuah terobosan besar telah terjadi di bidang pembuatan video! Genmo telah membuat model pembuatan video terbarunya menjadi sumber terbuka, Mochi1, yang menetapkan tolok ukur baru dalam bidang pembuatan video. Mochi1 menggunakan arsitektur Asymmetric Diffusion Transformer (AsymmDiT) yang inovatif dan memiliki hingga 10 miliar parameter, menjadikannya model pembuatan video terbesar yang dirilis secara publik hingga saat ini.
Lebih penting lagi, ia dilatih sepenuhnya dari awal dan memiliki arsitektur yang sederhana dan dapat dimodifikasi, yang memberikan kemudahan bagi pengembang di komunitas sumber terbuka.
Sorotan terbesar dari Mochi1 adalah kualitas gerakannya yang luar biasa dan kepatuhan yang tepat terhadap perintah teks. Ia mampu menghasilkan video halus berdurasi hingga 5,4 detik dengan frame rate hingga 30 frame/detik, dengan koherensi temporal yang menakjubkan dan dinamika gerakan yang realistis.
Mochi1 juga dapat mensimulasikan berbagai fenomena fisik, seperti dinamika fluida, simulasi rambut, dll. Karakter yang dihasilkannya memiliki gerakan yang natural dan halus, hampir sebanding dengan performa di kehidupan nyata.
Untuk memudahkan pengembang dalam menggunakannya, Genmo juga telah membuat VAE videonya menjadi sumber terbuka, yang dapat mengompresi video menjadi 1/128 dari ukuran aslinya, sehingga secara efektif mengurangi jumlah penghitungan dan kebutuhan memori model.
Arsitektur AsymmDiT secara efisien menangani perintah pengguna dan tag video terkompresi melalui mekanisme perhatian mandiri multi-modal, dan mempelajari lapisan MLP terpisah untuk setiap modalitas, yang selanjutnya meningkatkan efisiensi dan kinerja model.
Peluncuran Mochi1 menandai langkah penting dalam bidang pembuatan video open source. Perusahaan Genmo mengatakan bahwa mereka akan merilis versi lengkap Mochi1 sebelum akhir tahun, termasuk Mochi1HD yang mendukung pembuatan video 720p, yang pada saat itu fidelitas dan kelancaran video akan lebih ditingkatkan.
Agar lebih banyak orang dapat merasakan fungsi-fungsi hebat dari Mochi1, Genmo juga telah meluncurkan taman bermain yang dihosting secara gratis, yang dapat dinikmati pengguna di genmo.ai/play. Bobot dan arsitektur Mochi1 juga telah dipublikasikan di platform HuggingFace untuk diunduh dan digunakan oleh pengembang.
Genmo terdiri dari anggota inti proyek seperti DDPM, DreamFusion, dan Emu Video, dan tim penasihatnya termasuk Ion Stoica, ketua eksekutif dan salah satu pendiri Databricks dan Anyscale, salah satu pendiri Covariant dan anggota tim awal OpenAI ; dan pemimpin Industri Sistem Model Bahasa seperti Joey Gonzalez, pionir dan salah satu pendiri Turi.
Misi Genmo adalah membuka otak kanan kecerdasan buatan umum, dan Mochi1 adalah langkah pertama dalam membangun simulator dunia yang dapat membayangkan apa pun, mungkin atau tidak mungkin.
Genmo baru-baru ini menyelesaikan putaran pendanaan Seri A yang dipimpin oleh NEA, dengan total US$28,4 juta, yang akan memberikan dukungan keuangan yang cukup untuk penelitian dan pengembangan mereka di masa depan.
Meskipun Mochi1 telah mencapai hasil yang mengesankan, namun masih memiliki beberapa keterbatasan. Misalnya, versi awal saat ini hanya dapat menghasilkan video 480p, dengan sedikit distorsi dan distorsi di beberapa kasus tepian gerakan ekstrem. Selain itu, Mochi1 saat ini dioptimalkan untuk gaya foto-realistis, dan performanya dalam konten animasi perlu ditingkatkan.
Genmo mengatakan akan terus menyempurnakan Mochi1 dan mendorong komunitas untuk menyempurnakan model agar sesuai dengan preferensi estetika yang berbeda. Pada saat yang sama, mereka juga telah menerapkan protokol audit keselamatan yang kuat di taman bermain mereka untuk memastikan bahwa semua pembuatan video dilakukan secara etis.
Unduhan model: https://huggingface.co/genmo/mochi-1-preview
Pengalaman online: https://www.genmo.ai/play
Pengenalan resmi: https://www.genmo.ai/blog
Sumber terbuka Mochi1 menghadirkan kemungkinan-kemungkinan baru di bidang pembuatan video, dan fungsinya yang kuat serta penggunaan yang mudah patut dinantikan. Upaya berkelanjutan Genmo dan partisipasi aktif komunitas akan semakin mendorong kemajuan teknologi pembuatan video. Menantikan kedatangan Mochi1HD dan munculnya prestasi-prestasi yang lebih inovatif.