Doubao: Model pembuatan video "Videoworld" telah menjadi sumber terbuka untuk mewujudkan pembelajaran visual murni - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-02-14 16:16:02

Menurut akun resmi resmi tim Model Besar Doubao, di bawah penelitian bersama Universitas Beijing Jiaotong dan Universitas Sains dan Teknologi Tiongkok, model video generasi video "Videoworld" yang diusulkan oleh Tim Model Besar Doubao secara resmi dibuka baru -baru ini.

Sorotan terbesar dari model ini adalah tidak lagi bergantung pada model bahasa tradisional, tetapi dapat mengenali dan memahami dunia berdasarkan informasi visual saja. Penelitian terobosan ini diilhami oleh konsep Profesor Li Feifei bahwa "anak -anak kecil dapat memahami dunia nyata tanpa mengandalkan bahasa" yang disebutkan dalam pidatonya di TED.

"Videoworld" mewujudkan inferensi, perencanaan, dan kemampuan pengambilan keputusan yang kompleks dengan menganalisis dan memproses sejumlah besar data video. Eksperimen tim peneliti menunjukkan bahwa model mencapai hasil yang signifikan dengan hanya 300m parameter. Tidak seperti model yang ada yang mengandalkan bahasa atau data tag, videoworld dapat secara mandiri mempelajari pengetahuan, terutama dalam tugas -tugas kompleks seperti origami dan dasi busur, yang dapat memberikan metode pembelajaran yang lebih intuitif.

Untuk memverifikasi efektivitas model ini, tim peneliti mendirikan dua lingkungan eksperimental: GO Battle dan robot simulation control. Sebagai permainan yang sangat strategis, GO dapat secara efektif mengevaluasi pembelajaran aturan model dan kemampuan penalaran, sementara tugas robot memeriksa kinerja model dalam kontrol dan perencanaan. Selama tahap pelatihan, model secara bertahap menetapkan kemampuan untuk memprediksi gambar di masa depan dengan menonton sejumlah besar data demonstrasi video.

Untuk meningkatkan efisiensi pembelajaran video, tim memperkenalkan model dinamis potensial (LDM) yang dirancang untuk mengompres perubahan visual antara bingkai video untuk mengekstraksi informasi penting. Metode ini tidak hanya mengurangi informasi yang berlebihan, tetapi juga meningkatkan efisiensi pembelajaran model pengetahuan yang kompleks. Melalui inovasi ini, Videoworld menunjukkan kemampuan luar biasa dalam tugas go dan robot, dan bahkan mencapai tingkat pergerakan lima tahap profesional.

Tautan kertas: https://arxiv.org/abs/2501.09781

Tautan kode: https://github.com/bytedance/videoworld

Homepage Proyek: https://maverickren.github.io/videoworld.github.io

Poin -Poin Kunci:

Model "VideoWorld" dapat mewujudkan pembelajaran pengetahuan berdasarkan informasi visual saja, dan tidak bergantung pada model bahasa.

Model ini menunjukkan kemampuan penalaran dan perencanaan yang sangat baik dalam tugas simulasi go dan robot.

Kode dan model proyek telah bersumber terbuka, dan orang -orang dari semua lapisan masyarakat dipersilakan untuk berpartisipasi dalam pengalaman dan pertukaran.