ByteDance, konfrontasi langsung Kuaishou Video AI: ada perbedaan dalam pemahaman, penangkapan, dan imajinasi

Penulis：Eve Cole Waktu Pembaruan：2025-02-09 23:48:02

ByteDance dan Kuaishou, dua raksasa video pendek menghadapi konfrontasi head-to-head di bidang AI.

Pada tanggal 8 November, Dream AI, platform konten AI milik ByteDance, mengumumkan bahwa Seaweed, model pembuatan video yang dikembangkan oleh ByteDance, secara resmi terbuka untuk pengguna platform. Menurut ByteDance, model pembuatan video beanbag Seaweed yang terbuka untuk digunakan kali ini adalah versi standar model ini. Hanya membutuhkan waktu 60 detik untuk menghasilkan video AI berkualitas tinggi dengan durasi 5 detik, yaitu 3 hingga 5 menit lebih cepat dari itu. semua standar industri dalam negeri. Membutuhkan waktu pembangkitan.

Wartawan "Daily Economic News" melakukan pengujian sebenarnya pada Jimeng dan Keling versi pertama dan terbaru dan menemukan bahwa setelah iterasi, efek pembuatan video dari kedua produk tersebut telah ditingkatkan dalam banyak aspek dan pada tingkat yang berbeda-beda tata letak dan detail gambar lebih akurat, dan penyesuaian efek konten yang dihasilkan lebih fleksibel dan nyaman; Jimeng memiliki keunggulan dalam waktu pembuatan dan gaya video.

Visual Cina

Seorang teknisi model besar mengatakan kepada wartawan bahwa sulit bagi model pembuatan video untuk mencapai "gaya" konten produksi yang berbeda. "Selain teknologi, hal ini juga sangat bergantung pada kekayaan sumber data."

Selesaikan beberapa iterasi dalam waktu singkat

Dengan dibukanya model generasi video Seaweed yang dikembangkan sendiri oleh ByteDance, pasangan paling menarik dalam kompetisi model generasi video domestik - Ji Meng dan Ke Ling akhirnya resmi berkompetisi.

Mereka berdua mengusung "rencana pembuatan mimpi AI" untuk memahami dunia fisik dan memperkuat imajinasi sebanyak mungkin sambil memperoleh "realitas". Namun bagi mereka sendiri, Ji Meng dan Ke Ling juga memikul tanggung jawab ByteDance dan Kuaishou.

Faktanya, baik Jimeng maupun Keling menyelesaikan beberapa iterasi dalam waktu kurang dari setahun. Jimeng memulai pengujian internal fungsi pembuatan video pada akhir Maret. Setengah tahun kemudian, ByteDance merilis dua model generasi video dari rangkaian model Doubao, Seaweed dan Pixeldance, dan mengundang pengujian skala kecil melalui Jimeng AI dan Volcano Engine Now Rumput Laut terbuka untuk pengguna platform Terbuka secara resmi.

Pan Helin, anggota Komite Ahli Ekonomi Informasi dan Komunikasi Kementerian Perindustrian dan Teknologi Informasi, mengatakan kepada reporter "Daily Economic News" bahwa kecepatan pembangkitan model baru yang digunakan oleh Jimeng telah ditingkatkan, memberikan pengguna pengalaman yang lebih baik. pengalaman generasi. "Jimeng AI saat ini berada di bidang pembangkitan domestik. , masih relatif terdepan.”

Keling menjadi blockbuster setelah "kelahirannya" pada bulan Juni. Sejak dirilis, ia telah mengalami lebih dari sepuluh pembaruan, termasuk peluncuran fungsi video Tusheng dan peluncuran model 1.5. Saat ini, Keling memiliki lebih dari 3,6 juta pengguna, telah menghasilkan total 37 juta video, dan secara resmi akan meluncurkan Aplikasi (perangkat lunak aplikasi) independen dalam waktu dekat.

Reporter "Daily Economic News" memilih 5 kata cepat video sora yang diumumkan secara resmi oleh OpenAI (wanita di jalanan Tokyo, astronot, pantai dari sudut pandang drone, monster kecil animasi 3D, pemuda membaca di awan) dan mengujinya secara terpisah Menghe Keling versi pertama dan terbaru, bandingkan secara vertikal efek video dari kedua model generasi video.

Setelah membandingkan efek video yang dihasilkan oleh Jimeng versi asli dan versi terbaru, reporter menemukan bahwa ada dua bagian dari pembaruan Jimeng yang lebih jelas: Pertama, dalam performa “orang dan benda” yang dinamis, penangkapan dan koherensi gerakan telah ditingkatkan secara signifikan; Yang lainnya adalah bahwa penyajian gaya gambar yang berbeda juga telah mengalami kemajuan besar.

Mengambil contoh "Lady on the Streets of Tokyo", gerakan karakter yang diciptakan oleh Yume generasi pertama terasa kaku, terutama dalam menangkap gerakan kaki dan kaki, dan efek keseluruhannya kabur dan terdistorsi. Ji Meng versi baru yang diulang memiliki gerakan karakter yang alami dan halus, serta pemrosesan detail dinamika kaki yang lebih jelas dan lebih sejalan dengan logika dunia nyata.

Ada perbedaan yang jelas antara mimpi dan roh

Setelah iterasi kedua model, efek yang dihasilkan lebih stabil, kualitas gambar lebih baik, dan kelancaran serta detail pemrosesan lebih mampu menahan pengawasan. Namun, keduanya masih memiliki perbedaan yang jelas dalam pemahaman semantik, penangkapan dan amplifikasi kata kunci, serta keseimbangan antara imajinasi kreatif dan relevansi kreatif.

Perbandingan horizontal, membandingkan Jimeng versi terbaru dan model Keling 1.5, hingga membandingkan penyajian 5 kata prompt video Sora. Pemahaman semantik dan penangkapan kata kunci membuat penyajian video Jimeng dan Keling berbeda.

Dalam video "Pantai dari Perspektif Drone", Ji Meng secara relatif mengaburkan "pulau dengan mercusuar" di kata-katanya, dan apakah itu Ke Ling atau Sora, fokus adegan ini adalah "Pulau". Dalam deskripsi "Jalan Raya Pantai", setting mimpi tidak sesuai dengan logika dunia nyata.

Dalam efek video "Astronaut", Ji Meng tidak menggambarkan "petualangan" dalam deskripsinya. Setelah regenerasi, astronot yang memegang kopi dan mengendarai sepeda motor juga mengabaikan setting "petualangan". Ke Ling menekankan "petualangan" melalui ekspresi karakter dan gerakan kamera. Namun, baik Ji Meng maupun Ke Ling relatif mengabaikan setting "trailer film". Sebaliknya, video "Spaceman" Sora lebih bernuansa sinematik.

Pada generasi video "Monster kecil animasi 3D", setting monster kecil Ji Meng hampir sama dengan karakter "Sally" dalam film animasi "Monsters, Inc." Penggambaran monster kecil dalam kata-kata cepat yaitu penyajian mimpi juga relatif kurang tepat, seperti penerapan setting "berambut pendek". Selain itu, dari segi penyajian gaya artistiknya, kata-kata cepat menekankan pada "pencahayaan dan tekstur", yaitu eksekusi mimpi lebih lemah dibandingkan dengan Ke Ling.

Dalam video "Lady on the Streets of Tokyo", penampilan Ji Meng dalam menyajikan interaksi multi-subjek yang kompleks sangat buruk dibandingkan dengan Ke Ling. Baik "wanita" yang menjadi subjek gambar maupun deskripsi ruang relatif akurat, tetapi pejalan kaki dalam gambar umumnya kabur, dan pejalan kaki dalam jarak dekat terdistorsi.

Namun, Jimeng AI secara resmi mengungkapkan bahwa model generasi video Seaweed dan Pixeldance versi Pro akan tersedia untuk digunakan dalam waktu dekat. Model versi Pro akan mengoptimalkan interaksi multi-subjek dan koherensi tindakan multi-shot, sekaligus mengatasi masalah seperti konsistensi peralihan multi-shot.

Dari segi fungsi dan pengalaman, setelah beberapa putaran iterasi, Keling mengalami penyesuaian pada parameter "imajinasi kreatif dan relevansi kreatif" saat membuat video, sehingga penyesuaian keseimbangan dapat dilakukan. Ke Ling juga dapat mengatur konten yang tidak ingin Anda tampilkan, seperti blur, kolase, transformasi, animasi, dll. Operasi pembangkitan lebih fleksibel dan efeknya dapat disesuaikan.

Setelah pengujian, waktu pembuatan video impian lebih singkat. Waktu pembuatan video dari 5 kata cepat Sora masing-masing tidak melebihi setengah menit. Namun, dibutuhkan lebih dari 10 menit untuk menghasilkan video berkualitas tinggi 10 detik dengan model 1,5.

Perlu dicatat bahwa video-video tersebut di atas yang dibuat oleh Jimeng dan Keling telah diuji dan dibuat oleh reporter. Versi dan detail deskripsi yang berbeda akan menyebabkan perbedaan dalam efek pembuatan video.

Pertarungan di bidang pembuatan video AI

Bagi dua raksasa video pendek ByteDance dan Kuaishou, lawan mereka di bidang pembuatan video AI lebih dari sekadar satu sama lain.

Misalnya, pada tanggal 8 November, Zhipu, salah satu dari “Enam Naga Kecil AI”, meningkatkan alat pembuatan videonya, Qingying. Qingying yang ditingkatkan mendukung pembuatan video dari gambar dengan proporsi berapa pun, dan memiliki kemampuan pembuatan multi-saluran. Perintah atau gambar yang sama dapat menghasilkan 4 video sekaligus. Selain itu, Qingying dapat menghasilkan efek suara yang sesuai dengan gambar. Fungsi efek suara ini akan diluncurkan dalam versi beta publik bulan ini.

Sebelumnya, pada tanggal 31 Agustus, MiniMax merilis model generasi video definisi tinggi AI pertamanya yang berteknologi abab-video-1, yang sering menerima laporan pada bulan pertama peluncurannya. Menurut akun publik resmi MiniMax, pada bulan pertama setelah model video diluncurkan di Conch AI, jumlah kunjungan ke versi web Conch AI meningkat lebih dari 800%. Pengguna mencakup lebih dari 180 negara dan wilayah di seluruh dunia, dan produk ini menempati peringkat pertama dalam daftar produk AI (web) pada bulan September. Produk ini menempati peringkat pertama dalam daftar tingkat pertumbuhan global dan daftar tingkat pertumbuhan domestik.

Wang Peng, peneliti asosiasi di Institut Manajemen Akademi Ilmu Sosial Beijing, menunjukkan kepada reporter "Daily Economic News" bahwa produk video AI di dalam dan luar negeri saat ini sedang dalam tahap perkembangan pesat, dan teknologi asing raksasa seperti Meta dan Google secara aktif menerapkan di bidang video AI di dalam negeri, Kuaishou Keling, Jimeng AI, dan produk lainnya juga terus ditingkatkan secara berulang untuk meningkatkan pengalaman pengguna dan kemampuan komersialisasi.

Dalam hal kemungkinan komersialisasi, laporan penelitian yang dirilis oleh Soochow Securities pada bulan Agustus tahun ini menyebutkan bahwa dengan asumsi netral tingkat penetrasi AI sebesar 15%, potensi ruang bagi industri pembuatan video AI di Tiongkok adalah 317,8 miliar yuan; biaya produksi film, drama panjang, kartun, dan drama pendek akan berkurang lebih dari 95% dibandingkan model tradisional.

Besarnya potensi pasar dan “kekuatan super” dalam mengurangi biaya dan meningkatkan efisiensi juga dapat dilihat sekilas dari data penggunaan Keling.

Pada "Konferensi Komputer Tiongkok 2024" yang diadakan pada bulan Oktober, Zhang Di, wakil presiden Kuaishou dan kepala tim model besar, mengungkapkan bahwa sejak dirilis pada bulan Juni tahun ini, Kuaishou Keling AI memiliki lebih dari 3,6 juta pengguna dan telah menghasilkan total 37 juta video. dan lebih dari 100 juta gambar.

Pan Helin mengatakan dalam wawancara dengan reporter dari "Daily Economic News" bahwa Keling didukung oleh Kuaishou dan memiliki dukungan lalu lintas, sehingga proses komersialisasinya sangat cepat. "Produk video AI masih perlu didukung oleh platform Internet. Hanya dengan lalu lintas dapatkah mereka memiliki potensi komersial." ".

Demikian pula, ByteDance juga menempatkan komersialisasi model video di garis depan daftar tugasnya. Ketika dua model generasi video diluncurkan pada bulan September tahun ini, Tan Dai, presiden Volcano Engine, secara terbuka menyatakan bahwa model generasi video beanbag baru "telah mempertimbangkan komersialisasi sejak diluncurkan." Area penggunaannya meliputi pemasaran e-commerce dan animasi pendidikan, dan wisata budaya perkotaan dan skrip mikro.

"Video AI akan menunjukkan potensi komersialisasi yang berbeda pada sisi B dan sisi C." Wang Peng percaya bahwa untuk sisi B, video AI dapat menyediakan solusi produksi dan distribusi video yang lebih efisien dan berbiaya rendah bagi perusahaan; Di sisi lain, video AI dapat memenuhi kebutuhan pengguna akan konten video berkualitas tinggi yang dipersonalisasi, dan juga dapat dikombinasikan dengan e-commerce, periklanan, dan industri lainnya untuk mencapai pemasaran dan monetisasi yang lebih tepat.