Sora versi sumber terbuka? Peta jalan teknologi Open-Sora Luchen terungkap. Teknologi ini dapat menghasilkan video definisi tinggi 720p dengan satu klik, dengan peningkatan kualitas dan penurunan biaya.

Penulis：Eve Cole Waktu Pembaruan：2025-01-03 10:32:01

Proyek open-source Open-Sora dari tim Luchen telah membuat kemajuan terobosan di bidang pembuatan video definisi tinggi 720p. Kecepatan pembuatannya yang efisien dan keluaran berkualitas tinggi sungguh menakjubkan. Proyek ini dengan cepat memperoleh lebih dari 17,5 ribu bintang di GitHub dan mendapat perhatian industri yang luas, bahkan Lambda Labs membangun dunia LEGO digital berdasarkan bobot modelnya. Open-Sora tidak hanya mudah digunakan, senyaman memesan makanan untuk dibawa pulang, tetapi yang lebih penting, Open-Sora membuka bobot model dan rute teknis terperinci, memungkinkan lebih banyak pengembang dan peminat untuk berpartisipasi dan mempromosikan kemajuan teknologi video Wensheng.

Baru-baru ini, tim Luchen Open-Sora telah mencapai kemajuan terobosan dalam kualitas dan waktu pembuatan video definisi tinggi 720p. Mereka tidak hanya membuat berita besar dalam kualitas dan waktu pembuatan video definisi tinggi 720p, tetapi mereka juga membuat ini. sayang open source, sehingga seluruh komunitas bersemangat!

Tidak berlebihan jika dikatakan bahwa proyek sumber terbuka mereka membuat pembuatan video semudah memesan makanan untuk dibawa pulang. Sejak debutnya pada bulan Maret, ia telah menerima 17,5 ribu bintang di GitHub dan sangat populer!

Alamat sumber terbuka: https://github.com/hpcaitech/Open-Sora

Open-Sora dapat menghasilkan video definisi tinggi 720p berdurasi 16 detik dengan satu klik. Baik itu potret yang indah, film fiksi ilmiah yang keren, atau animasi yang jelas dan menarik, dengan efek zoom yang halus, Open-Sora dapat dengan mudah menanganinya. Tidak, bahkan Lambda Labs, perusahaan AI yang sahamnya dimiliki Nvidia, telah menciptakan dunia Lego digital berdasarkan bobot model Open-Sora, memungkinkan penggemar Lego menemukan dunia kreativitas baru.

Tim Luchen tidak hanya membuat bobot model menjadi sumber terbuka, tetapi juga menerbitkan rute teknis di GitHub, memungkinkan setiap pemain menjadi ahli model video besar. Laporan teknis ini menganalisis secara mendalam inti dan poin-poin penting dari pelatihan model, mulai dari jaringan kompresi video, algoritme model difusi, hingga kemampuan pengendalian. Mereka menggunakan model pembangkitan difusi 1,1B untuk mengatasi permasalahan pelatihan model video.

Alamat laporan: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md

Pengenalan jaringan kompresi video adalah metode yang sama dengan Sora OpenAI. Ia dapat melakukan kompresi 4 kali dalam dimensi waktu tanpa ekstraksi bingkai, dan dapat menggunakan FPS asli untuk menghasilkan video. Tim juga mengusulkan jaringan kompresi video sederhana (yaitu VAE), yang pertama-tama dapat mencapai kompresi 8x8 kali dalam dimensi spasial, dan kemudian kompresi 4 kali dalam dimensi waktu.

Model difusi terbaru dari Difusi Stabil3 meningkatkan kualitas pembangkitan melalui teknologi aliran yang diperbaiki. Teknologi yang disediakan oleh tim Luchen mencakup pelatihan rektifikasi, pengambilan sampel langkah waktu logit-norma, dll., yang mempercepat pelatihan model dan mengurangi waktu tunggu inferensi.

Laporan tersebut juga mengungkapkan rincian inti pelatihan model, termasuk pembersihan data, teknik penyetelan model, dan pembangunan sistem evaluasi model. Mereka bahkan menyediakan penerapan aplikasi Gradio sekali klik, yang mendukung berbagai penyesuaian parameter.

Sumber terbuka Luchen Open-Sora mematahkan lingkaran tertutup dan memberikan vitalitas ke dalam inovasi dan pengembangan Vincent Video. Pengguna telah bertransformasi dari konsumen konten menjadi pembuat konten, dan pengguna perusahaan telah membuka keterampilan baru untuk pengembangan mandiri.

Sumber terbuka Open-Sora menurunkan ambang masuk untuk teknologi video Wensheng dan memberikan kemungkinan tak terbatas untuk pembuatan konten kreatif di masa depan. Perlu dinantikan pengembangan selanjutnya dan eksplorasi lebih banyak skenario aplikasi.