Tim peneliti dari Universitas Nanjing berkolaborasi dengan ByteDance dan Southwest University meluncurkan teknologi resolusi super video inovatif yang disebut STAR. Teknologi ini secara cerdik menggabungkan metode peningkatan spatiotemporal dan model teks-ke-video, yang secara signifikan dapat meningkatkan kejelasan video beresolusi rendah, terutama yang diunduh dari platform video. Versi model STAR yang telah dilatih sebelumnya telah dijadikan sumber terbuka di GitHub untuk kenyamanan para peneliti dan pengembang. Hal ini menandai terobosan penting dalam bidang pemrosesan video. Proyek ini menyediakan dua model, I2VGen-XL dan CogVideoX-5B, dan mendukung berbagai format input dan opsi cepat untuk memenuhi kebutuhan yang berbeda.
Untuk memfasilitasi peneliti dan pengembang, tim peneliti telah merilis versi model STAR yang telah dilatih sebelumnya di GitHub, termasuk dua model, I2VGen-XL dan CogVideoX-5B, serta kode inferensi terkait. Pengenalan alat-alat ini menandai kemajuan penting dalam bidang pemrosesan video.
Proses penggunaan model ini relatif sederhana. Pertama, pengguna perlu mengunduh model STAR terlatih dari HuggingFace dan memasukkannya ke dalam direktori yang ditentukan. Selanjutnya, siapkan file video yang akan diuji dan pilih opsi perintah teks yang sesuai, termasuk tidak ada perintah, perintah yang dibuat secara otomatis, atau perintah yang dimasukkan secara manual. Pengguna hanya perlu menyesuaikan pengaturan jalur pada skrip untuk memproses video beresolusi super dengan mudah.
Proyek ini secara khusus merancang dua model berdasarkan I2VGen-XL, yang digunakan untuk berbagai tingkat pemrosesan degradasi video untuk memastikan bahwa keduanya dapat memenuhi berbagai kebutuhan. Selain itu, model CogVideoX-5B secara khusus mendukung format input 720x480, memberikan opsi fleksibel untuk skenario tertentu.
Penelitian ini tidak hanya memberikan ide-ide baru bagi pengembangan teknologi video super resolusi, namun juga membuka arah penelitian baru bagi para peneliti di bidang terkait. Tim peneliti mengucapkan terima kasih kepada teknologi mutakhir seperti I2VGen-XL, VEnhancer, CogVideoX, dan OpenVid-1M, yang mereka yakini menjadi landasan bagi proyek mereka.
Pintu masuk proyek: https://github.com/NJU-PCALab/STAR
Highlight:
Teknologi baru STAR menggabungkan model teks-ke-video untuk mencapai resolusi super video dan meningkatkan kualitas video.
Tim peneliti telah merilis model dan kode inferensi terlatih, dan proses penggunaannya sederhana dan jelas.
Berikan informasi kontak untuk mendorong pengguna berkomunikasi dan berdiskusi dengan tim peneliti.
Proyek STAR bersumber terbuka melalui GitHub, sehingga memudahkan pengembang dan peneliti untuk menggunakannya. Proses pengoperasiannya yang sederhana dan mudah digunakan serta fungsinya yang kuat menghadirkan kemungkinan baru di bidang resolusi super video dan memberikan arahan baru untuk penelitian di masa depan. . Kami menantikan teknologi STAR memainkan peran yang lebih besar dalam aplikasi praktis.