Editor Downcodes mengetahui bahwa para peneliti dari ByteDance Research Institute dan Tsinghua University baru-baru ini merilis sebuah penelitian yang mengungkapkan kelemahan besar dalam model generasi video AI saat ini seperti Sora OpenAI dalam memahami hukum fisika. Melalui serangkaian pengujian, penelitian ini menyelidiki kinerja model-model ini dalam berbagai skenario dan menganalisis mekanisme di baliknya. Hasil penelitian ini memperingatkan keterbatasan teknologi pembuatan video AI saat ini, sehingga memicu pemikiran luas di industri tentang kemampuan AI untuk mensimulasikan kenyataan.
Tim peneliti menguji model pembuatan video AI dan menyiapkan tiga skenario berbeda, yaitu prediksi dalam mode yang diketahui, prediksi dalam mode yang tidak diketahui, dan kombinasi baru dari elemen yang sudah dikenal. Tujuan mereka adalah untuk melihat apakah model ini benar-benar mempelajari hukum fisika atau hanya mengandalkan fitur permukaan dalam pelatihannya.
Melalui pengujian, para peneliti menemukan bahwa model AI ini tidak mempelajari aturan yang berlaku secara universal. Sebaliknya, mereka terutama mengandalkan fitur permukaan seperti warna, ukuran, kecepatan, dan bentuk saat membuat video, dan mengikuti urutan prioritas yang ketat: warna terlebih dahulu, diikuti oleh ukuran, kecepatan, dan bentuk.
Model-model ini bekerja hampir sempurna dalam skenario yang lazim, namun tidak mampu melakukannya ketika menghadapi situasi yang tidak diketahui. Sebuah tes dalam penelitian tersebut menunjukkan keterbatasan model AI ketika berhadapan dengan gerakan objek. Misalnya, saat model dilatih dengan bola yang bergerak cepat bergerak maju mundur, namun saat diuji dengan bola yang bergerak lambat, model justru menunjukkan bahwa bola tiba-tiba berubah arah setelah beberapa frame. Fenomena ini juga terlihat jelas dalam video terkait.
Para peneliti menunjukkan bahwa sekadar meningkatkan model atau menambahkan lebih banyak data pelatihan tidak akan menyelesaikan masalah. Meskipun model yang lebih besar berperforma lebih baik dengan pola dan kombinasi yang sudah dikenal, model tersebut masih gagal memahami fisika dasar atau menangani skenario di luar jangkauan pelatihannya. Rekan penulis studi Kang Bingyi menyebutkan: "Jika cakupan data cukup baik dalam skenario tertentu, model dunia yang overfitting dapat terbentuk." Namun model ini tidak memenuhi definisi model dunia nyata, karena seharusnya model dunia nyata dapat menggeneralisasi di luar data pelatihan.
Rekan penulis Bingyi Kang mendemonstrasikan batasan ini pada X, menjelaskan bahwa ketika mereka melatih model dengan bola yang bergerak cepat dari kiri ke kanan dan ke belakang, lalu mengujinya dengan bola yang bergerak lambat, model tersebut menunjukkan bola bergerak secara tiba-tiba. berubah arah hanya setelah beberapa frame (Anda dapat melihatnya di video pada 1 menit 55 detik).
Temuan ini menimbulkan tantangan bagi proyek Sora OpenAI. OpenAI mengatakan bahwa Sora diperkirakan akan berevolusi menjadi model dunia nyata melalui ekspansi berkelanjutan, dan bahkan mengklaim bahwa Sora telah memiliki pemahaman dasar tentang interaksi fisik dan geometri tiga dimensi. Namun para peneliti menunjukkan bahwa peningkatan skala sederhana saja tidak cukup bagi model generatif video untuk menemukan hukum fisika dasar.
Kepala AI Meta, Yann LeCun, juga menyatakan skeptisnya, dengan mengatakan bahwa memprediksi dunia dengan menghasilkan piksel adalah "buang-buang waktu dan pasti gagal." Meskipun demikian, banyak orang masih berharap OpenAI akan merilis Sora sesuai jadwal pada pertengahan Februari 2024 untuk menunjukkan potensinya dalam pembuatan video.
Penelitian ini menunjukkan arah pengembangan bidang pembuatan video AI, dan juga mengingatkan kita bahwa evaluasi kemampuan AI tidak bisa hanya berhenti pada efek dangkal saja, namun juga perlu menggali mekanisme dan keterbatasan yang melekat pada AI. Di masa depan, bagaimana memungkinkan AI untuk benar-benar memahami dan mensimulasikan dunia fisik masih menjadi tantangan besar.