Teknologi pembuatan video telah membuat kemajuan yang signifikan dalam beberapa tahun terakhir, tetapi model yang ada masih memiliki keterbatasan dalam menangkap gerakan kompleks dan fenomena fisik. Tim peneliti Meta mengusulkan kerangka kerja VideoJam, yang bertujuan untuk meningkatkan ekspresi gerakan model generasi video melalui representasi gerak penampilan bersama.
Di bidang pembuatan video, meskipun ada kemajuan yang signifikan dalam beberapa tahun terakhir, model generatif yang ada masih berjuang untuk menangkap gerakan yang kompleks, fenomena dinamis dan fisik dalam kenyataan. Keterbatasan ini terutama berasal dari tujuan rekonstruksi piksel tradisional, yang cenderung cenderung meningkatkan realisme penampilan dan mengabaikan konsistensi gerakan.
Untuk mengatasi masalah ini, tim peneliti Meta mengusulkan kerangka kerja baru yang disebut VideoJam, yang bertujuan untuk menyuntikkan prior gerak yang efektif ke dalam model yang menghasilkan video dengan mendorong model untuk mempelajari representasi gerak penampilan bersama.
Kerangka VideoJam berisi dua unit pelengkap. Selama fase pelatihan, kerangka kerja memperluas tujuan untuk memprediksi piksel yang dihasilkan dan gerakan yang sesuai, keduanya dari representasi pembelajaran tunggal.
Selama fase penalaran, tim peneliti memperkenalkan mekanisme yang disebut "bimbingan intrinsik" yang memandu proses generasi menuju arah gerak yang konsisten dengan memanfaatkan prediksi gerak model yang berkembang sendiri sebagai sinyal panduan dinamis. Perlu dicatat bahwa VideoJam dapat diterapkan pada model pembuatan video apa pun tanpa memodifikasi data pelatihan atau memperluas model.
VideoJam telah terbukti menjadi tingkat konsistensi gerak yang memimpin industri, melampaui beberapa model kepemilikan yang sangat kompetitif sambil juga meningkatkan kualitas visual gambar yang dihasilkan. Hasil penelitian ini menekankan hubungan komplementer antara penampilan dan gerakan, yang secara signifikan dapat meningkatkan efek visual dan koherensi gerak pembuatan video ketika keduanya digabungkan secara efektif.
Selain itu, tim peneliti menunjukkan kinerja yang sangat baik dari VideoJam-30B dalam generasi jenis olahraga yang kompleks, termasuk adegan seperti skateboarder jumping dan penari balet berputar di danau. Dengan membandingkan model Bibase DIT-30B, penelitian ini menemukan bahwa VideoJam telah secara signifikan meningkatkan kualitas pembuatan gerak.
Pintu masuk proyek: https://hila-chefer.github.io/videojam-paper.github.io/
Poin -Poin Kunci:
Kerangka VideoJam meningkatkan ekspresi gerak model generasi video melalui representasi gerak penampilan bersama.
Selama pelatihan, VideoJam dapat memprediksi piksel dan gerakan secara bersamaan, meningkatkan konsistensi konten yang dihasilkan.
Telah terbukti bahwa VideoJam melampaui beberapa model kompetitif dalam konsistensi gerak dan kualitas visual.
Kerangka VideoJam Meta telah membawa terobosan baru ke teknologi pembuatan video.