Sejak lahirnya Sora yang mengantarkan era baru video AI, para pemain besar di dalam dan luar negeri berturut-turut mengikuti kompetisi video AI. Namun saat kita memasuki era baru video yang lebih interaktif dan mendalam, bagaimana kita mengatasi tantangan biaya, kualitas, dan kinerja?
Pada tanggal 15 Oktober, Volcano Engine dan Intel bersama-sama merilis solusi prapemrosesan video pelatihan model besar di Video Cloud Technology Conference. Seorang reporter dari "Daily Economic News" mengetahui pada konferensi pers bahwa solusi teknis ini telah diterapkan pada model pembuatan video bean bag.
Pada konferensi pers, Li Hang, kepala Bytedance Research, memperkenalkan bahwa model pembuatan video Doubao PixelDance mengadopsi solusi prapemrosesan video pelatihan model besar dari Volcano Engine selama proses pelatihan, memanfaatkan sepenuhnya sejumlah besar sumber daya pasang surut dan memberikan dukungan yang kuat untuk pelatihan model.
Selain itu, Wang Yue, kepala arsitektur video Grup Douyin, mengungkapkan kemajuan terbaru dari chip codec video yang dikembangkan sendiri oleh Byte: diverifikasi oleh praktik internal Grup Douyin, chip ini menghemat lebih dari 95% biaya dalam kompresi video yang sama efisiensi.
"Pertama-tama, kumpulan data pelatihan video berskala sangat besar telah menyebabkan lonjakan biaya komputasi dan pemrosesan." Wang Yue menunjukkan bahwa produsen model besar menghadapi banyak tantangan dalam proses pra-pemrosesan data sampel tidak merata, dan kemudian terdapat banyak tautan pemrosesan. Proyek ini rumit, dan akhirnya menghadapi penjadwalan dan penerapan berbagai sumber daya komputasi yang heterogen seperti GPU, CPU, dan ARM.”
Kerangka pemrosesan multimedia yang dikembangkan sendiri
Pada Tur Inovasi AI Volcano Engine pada tanggal 24 September, dua model generasi video beanbag besar, PixelDance dan Seaweed, dirilis bersamaan, menarik perhatian orang-orang di dalam dan di luar industri. Faktanya, upaya ByteDance dalam model pembuatan video tidak berhenti sampai di situ.
Pada tanggal 15 Oktober, Volcano Engine merilis solusi prapemrosesan video pelatihan model besar, yang didedikasikan untuk memecahkan tantangan teknis dalam biaya, kualitas, dan kinerja pelatihan model video besar.
Menurut laporan, video pelatihan prapemrosesan merupakan prasyarat penting untuk memastikan efek pelatihan model besar. Proses preprocessing dapat menyatukan format data video, meningkatkan kualitas data, menstandardisasi data, mengurangi jumlah data, dan memproses informasi anotasi, sehingga model dapat mempelajari fitur dan pengetahuan dalam video dengan lebih efisien dan meningkatkan pelatihan. efek dan efisiensi.
Dalam pelatihan model generasi video, biaya daya komputasi tidak diragukan lagi merupakan tantangan nomor satu.
Seorang insinyur algoritme model pembuatan video domestik mengatakan dalam sebuah wawancara dengan reporter dari "Daily Economic News" bahwa dengan data berkualitas tinggi, model video akan lebih sulit untuk dilatih daripada model bahasa besar dan memerlukan lebih banyak daya komputasi "Saat ini , Model video sumber terbuka yang diketahui tidak terlalu besar, terutama karena banyak model video saat ini berada pada tahap di mana mereka tidak mengetahui cara menggunakan data, dan tidak banyak data berkualitas tinggi (untuk pelatihan)."
Penelitian ilmuwan komputer Matthias Plappert juga menunjukkan bahwa pelatihan Sora membutuhkan daya komputasi yang besar. Dalam proses pelatihannya, dibutuhkan waktu sekitar 1 bulan untuk melatih 4.200 hingga 10.500 Nvidia H100 saat model sudah dihasilkan dan mencapai tahap inferensi yaitu komputasi biaya akan meningkat dengan cepat di luar sesi pelatihan.
Untuk mengatasi masalah pengurangan biaya, Volcano Engine mengandalkan CPU Intel dan sumber daya lainnya untuk mengandalkan solusi prapemrosesan video pelatihan model besar pada kerangka pemrosesan multimedia yang dikembangkan sendiri. Wang Yue mengatakan bahwa solusi tersebut juga telah dioptimalkan dalam hal algoritme dan rekayasa, serta dapat melakukan prapemrosesan data video berukuran besar dengan kualitas tinggi, mencapai kolaborasi pemrosesan tautan yang efisien dalam waktu singkat, dan meningkatkan efisiensi pelatihan model.
Mengenai penerapan solusi ini, Li Hang mengungkapkan pada konferensi pers bahwa model pembuatan video beanbag PixelDance telah mengadopsi solusi ini selama proses pelatihan. Pada saat yang sama, solusi on-demand yang disediakan oleh Volcano Engine Video Cloud Team juga menyediakan layanan terpadu untuk seluruh siklus hidup video yang diproduksi oleh PixelDance, mulai dari pengeditan, pengunggahan, transcoding, distribusi, dan pemutaran, memastikan penerapan komersial model tersebut.
Selain itu, pada konferensi ini, Volcano Engine juga merilis solusi siaran langsung simultan lintas bahasa, solusi pemahaman dan pembuatan video multi-modal, solusi interaksi real-time AI percakapan, dan solusi AIG3D & rekonstruksi pemandangan besar ujung produksi video, dari ujung interaktif hingga ujung konsumen, seluruh tautan mengintegrasikan kemampuan AI.
Kemana arah video AI?
AI mengubah cara manusia memproduksi, menyebarkan, dan menerima informasi dalam segala aspek. Diantaranya, teknologi video baru yang muncul telah membawa orang-orang dari dunia data halus dan definisi tinggi ke dunia AI dengan pengalaman yang lebih cerdas dan interaktif.
Pada bulan Juli tahun ini, SenseTime meluncurkan Vimi, model pembuatan video karakter besar pertama yang dapat dikontrol untuk pengguna C-end; pada bulan Agustus, MiniMax merilis model pembuatan video video-1 pada bulan September, Keling AI menyelesaikan iterasi kesembilan dan merilis "KeLing 1.5 model", Alibaba Cloud meluncurkan model pembuatan video baru di Konferensi Yunqi, dan Byte juga merilis 2 model pembuatan video. Kelahiran dan iterasi produk video AI hampir memakan waktu berbulan-bulan.
Mengenai "ledakan" produk video AI, Wang Peng, peneliti asosiasi di Akademi Ilmu Sosial Beijing, mengatakan dalam sebuah wawancara dengan reporter dari "Daily Economic News" bahwa produk video AI dalam negeri sedang dalam tahap perkembangan pesat dan iterasi berkelanjutan, terutama karena permintaan pasar yang kuat dan beragam skenario aplikasi serta model komersialisasi yang beragam.
Saat ini, produk video AI yang ada di pasaran sebagian besar diterapkan di bidang film dan televisi, pemasaran e-commerce, dan bidang lainnya. Misalnya, pada bulan Juli tahun ini, Jimeng AI dan Bona Pictures bekerja sama untuk meluncurkan AIGC generatif berkelanjutan pertama di negara tersebut. seri pendek fiksi ilmiah naratif "Sanxingdui: Future Enlightenment" "Record"; pada bulan September tahun ini, Kuaishou bekerja sama dengan sembilan sutradara terkenal termasuk Jia Zhangke dan Li Shaohong untuk meluncurkan proyek kreasi bersama sutradara "Keling AI".
Pan Helin, anggota Komite Pakar Ekonomi Informasi dan Komunikasi Kementerian Perindustrian dan Teknologi Informasi, mengatakan kepada reporter "Daily Economic News" bahwa beberapa produk video AI sekarang sedang dalam tahap pengenalan dan sulit untuk diluncurkan. di pasar karena teknologi atau kepatuhan. "Saat ini, tampaknya open source (produk Video AI) lebih populer dibandingkan sumber tertutup karena biaya pembuatan video AI tinggi, dan produser video sering kali kekurangan dana, sehingga menggunakan open source algoritma sumber AI yang diunduh ke terminal dapat memproduksi dan menghasilkan video dengan lebih baik."
Dalam pandangannya, produk video AI pada tahap ini memiliki dua kendala utama: daya komputasi dan risiko kepatuhan. "Algoritma, daya komputasi, dan data semuanya mengharuskan perusahaan untuk menginvestasikan lebih banyak sumber daya dan waktu; kesulitan lainnya terletak pada risiko kepatuhan. Saat ini, semakin banyak perhatian diberikan pada privasi. Kepatuhan adalah topik yang tidak dapat dihindari, dan video AI terkadang dapat menjadi pelanggaran privasi. privasi,” jelasnya.
Selain itu, Mitra Riset Analisis Analisis Chen Chen juga menyatakan keprihatinannya tentang kemampuan monetisasi jangka pendek dari model pembuatan video besar dalam sebuah wawancara dengan reporter dari "Daily Economic News". "Karena tingginya biaya pelatihan model dan inferensi AI yang besar model, ditambah dengan permintaan pengguna terhadap alat AI relatif tersebar dan kesediaan mereka untuk membayar tidak mencukupi. Komersialisasi model video besar di pasar C-end masih akan menghadapi periode pengembangan yang panjang."
Era video AI telah tiba, namun cara mengurangi biaya, meningkatkan efisiensi, dan memenangkan lebih banyak pasar juga akan menjadi proposisi penting yang dihadapi oleh perusahaan Internet dan perusahaan teknologi besar.