Baru -baru ini, sebuah studi yang dilakukan bersama oleh Bytedance Research Institute dan Tsinghua University mengajukan pertanyaan tentang kemampuan pemahaman fisik model generasi video AI saat ini. Melalui eksperimen yang dirancang dengan cermat, tim peneliti menemukan bahwa model -model ini, seperti Sora Openai, meskipun mengesankan secara visual, tidak benar -benar memahami hukum fisik dasar, tetapi malah mengandalkan warna, ukuran, dan belajar dan memprioritaskan fitur permukaan seperti kecepatan dan membentuk. Studi ini telah memicu pemikiran mendalam orang tentang realitas simulasi AI, dan juga menantang model AI yang membanggakan kemampuan pemahaman fisik mereka.
Baru -baru ini, para peneliti dari Hytedance Research Institute dan Tsinghua University bersama -sama merilis studi baru, menunjukkan bahwa model generasi video AI saat ini, seperti Openai's Sora, dapat menciptakan efek visual yang luar biasa, tetapi memahami fisika dasar. . Studi ini telah memicu diskusi luas tentang kemampuan AI untuk mensimulasikan kenyataan.
Tim peneliti menguji model generasi video AI dan menyiapkan tiga skenario yang berbeda, yaitu prediksi dalam mode yang diketahui, prediksi dalam mode yang tidak diketahui, dan kombinasi baru dari elemen -elemen yang akrab. Tujuan mereka adalah untuk melihat apakah model -model ini benar -benar mempelajari hukum fisika, atau jika mereka hanya mengandalkan fitur permukaan dalam pelatihan.
Melalui pengujian, para peneliti menemukan bahwa model AI ini tidak belajar aturan yang berlaku secara universal. Sebaliknya, mereka mengandalkan terutama pada fitur permukaan seperti warna, ukuran, kecepatan, dan bentuk saat menghasilkan video, dan mengikuti urutan prioritas yang ketat: warna lebih disukai, diikuti oleh ukuran, kecepatan, dan bentuk.
Dalam skenario yang akrab, model -model ini berkinerja hampir sempurna, tetapi begitu mereka mengalami situasi yang tidak diketahui, mereka tampak tidak berdaya. Tes dalam penelitian ini menunjukkan keterbatasan model AI ketika berhadapan dengan gerakan objek. Misalnya, ketika model berlatih menggunakan bola bergerak cepat untuk bergerak bolak -balik, sambil memberikannya dengan bola lambat selama pengujian, model sebenarnya menunjukkan bahwa bola tiba -tiba mengubah arah setelah beberapa frame. Fenomena ini juga jelas tercermin dalam video terkait.
Para peneliti menunjukkan bahwa hanya memperluas ukuran model atau meningkatkan data pelatihan tidak menyelesaikan masalah. Meskipun model yang lebih besar berkinerja lebih baik di bawah pola dan kombinasi yang akrab, mereka masih gagal memahami hukum fisik dasar atau menangani skenario di luar ruang lingkup pelatihan. Rekan Penelitian Kang Bingyi menyebutkan: "Jika cakupan data cukup baik dalam skenario tertentu, dimungkinkan untuk membentuk model dunia yang terlalu tinggi." Model dunia harus dapat mempromosikan data di luar pelatihan.
Rekan penulis Bingyi Kang menunjukkan batasan ini pada X, menjelaskan bahwa ketika mereka melatih model dengan bola yang bergerak cepat dari kiri ke kanan dan ke belakang, kemudian diuji dengan bola yang bergerak lambat, model menunjukkan bola di setelah hanya beberapa bingkai, arah tiba -tiba berubah (Anda dapat melihatnya dalam video 1 menit dan 55 detik).
Hasil penelitian ini menantang program Sora Openai. Openai telah mengatakan bahwa Sora diharapkan berkembang menjadi model dunia yang benar melalui ekspansi berkelanjutan, dan bahkan mengklaim bahwa ia memiliki pemahaman dasar tentang interaksi fisik dan geometri tiga dimensi. Tetapi para peneliti menunjukkan bahwa ekspansi skala sederhana saja tidak cukup untuk memungkinkan model pembuatan video menemukan hukum fisik dasar.
Yann Lecun, kepala AI di meta, juga menyatakan keraguan tentang hal ini, percaya bahwa praktik memprediksi dunia dengan menghasilkan piksel adalah "buang -buang waktu dan ditakdirkan untuk gagal." Meskipun demikian, banyak orang masih menantikan rilis Sora Openai seperti yang dijadwalkan pada pertengahan Februari 2024, menunjukkan potensi pembuatan videonya.
Poin -Poin Kunci:
Penelitian ini menemukan bahwa model generasi video AI memiliki kelemahan besar dalam memahami hukum fisik dan bergantung pada karakteristik permukaan data pelatihan.
Menskalakan ukuran model tidak menyelesaikan masalah, yang tidak berkinerja baik dalam skenario yang tidak diketahui.
Program Sora Openai menghadapi tantangan, dan peningkatan saja tidak dapat mencapai model dunia sejati.
Singkatnya, penelitian ini menunjukkan arah untuk pengembangan teknologi generasi video AI, yaitu, ekspansi skala sederhana tidak dapat menyelesaikan masalah mendasar dari pemahaman AI tentang hukum fisik. Di masa depan, model AI perlu belajar dan memahami prinsip -prinsip fisik lebih dalam untuk benar -benar mencapai simulasi dan prediksi yang akurat dari dunia nyata, daripada hanya tetap pada tahap meniru fitur permukaan.