Model besar adalah bidang yang mengutamakan kecepatan, namun terkadang kelambatan bisa menjadi jenis kecepatan yang lain.
Pada tanggal 31 Agustus, perusahaan unicorn AI domestik MiniMax Shanghai Xiyu Technology Co., Ltd. (selanjutnya disebut sebagai "MiniMax") merilis model video abab-video-1 pada konferensi pengembang pertama "MiniMaxLink Partner Day Enter". kata cepat untuk Ini dapat menghasilkan video berdurasi hingga 6 detik, dengan fokus pada resolusi tinggi dan kecepatan bingkai tinggi.
Dengan kata lain, model video yang disebutkan MiniMax mirip dengan model video Vincent sora OpenAI. Sebagai pendiri dan CEO MiniMax, Yan Junjie percaya bahwa "cepat" adalah tujuan penelitian dan pengembangan teknologi inti dari model besar yang mendasari perusahaan, namun model videonya tertinggal beberapa bulan dari Sora.
"Mengapa peluncuran kami terlambat satu atau dua bulan? Intinya adalah kami memecahkan masalah teknis yang lebih sulit, yaitu bagaimana melatih berbagai hal secara asli dengan daya komputasi yang relatif tinggi." Yan Junjie mengatakan kepada reporter dari China Business News bahwa selama ini pelatihan Saat mengembangkan kemampuan pembuatan video, Anda harus terlebih dahulu mengonversi video menjadi token, dan token ini akan sangat panjang, dan kompleksitasnya akan lebih tinggi. "Faktanya, hal utama yang kami lakukan pada paruh pertama tahun ini adalah mengurangi kompleksitasnya. Buat rasio kompresi lebih tinggi, jadi terlambat satu atau dua bulan.”
MiniMax mengatakan berdasarkan evaluasi internal dan skor lari, model video perusahaan berkinerja lebih baik daripada Runway. Saat ini, Keling telah meluncurkan model komersial paket berlangganan keanggotaan. Lantas, apa model bisnis model video MiniMax? Dalam hal ini, Yan Junjie berkata: "Strategi kami adalah menunggu satu atau dua minggu lagi. Setelah hal-hal baru keluar dan kami berada dalam kondisi yang lebih memuaskan, kami mungkin mempertimbangkan (mengambil) beberapa (tindakan) komersialisasi."
Dia juga menyebutkan bahwa karena pesatnya kemajuan model, meskipun video yang dihasilkan AI tidak dapat menggantikan mesin rendering tradisional, hal ini "setidaknya memberikan kemungkinan" untuk membuat game 3A seperti "Black Myth: Wukong".
Pertimbangkan komersialisasi hanya jika Anda lebih puas
Meskipun jalur komersialisasi model video tidak disebutkan, Yan Junjie mengatakan: "Komersialisasi seluruh perusahaan pada dasarnya dibagi menjadi dua bentuk. Salah satu bentuknya adalah platform terbuka kami, yang kini memiliki lebih dari 2.000 pelanggan, termasuk banyak pelanggan terkenal Perusahaan internet, termasuk perusahaan tradisional, sudah memiliki kemampuan bagi pengguna untuk menggunakan suara dan visi. Tidak semua perusahaan dapat melakukannya sendiri seperti Kuaishou.
"Yang kedua adalah produk kami juga memiliki mekanisme periklanan, dan iklan dapat dimonetisasi secara komersial." Yan Junjie percaya bahwa pada tahap saat ini, "yang paling penting bukanlah komersialisasi, tetapi benar-benar membuat teknologi tersedia secara luas." tersedianya."
Video (model video) yang dihasilkan AI dengan teknologi yang relatif kompleks telah menjadi operasi umum bagi produsen model besar untuk menunjukkan kekuatan atau "melenturkan otot mereka" tahun ini, dan OpenAI telah memulainya. Pada bulan Februari tahun ini, OpenAI merilis Sora, model video besar, namun belum dirilis untuk pengujian publik. Pada bulan April, Teknologi Shengshu merilis model video besar Vidu; pada bulan Juni, Kuaishou merilis model video besar Keling; pada bulan Juli, model video buatan Zhipu AI Qingying secara resmi diluncurkan...
Mengapa MiniMax ingin membuat model video? Yan Junjie mengatakan intinya adalah sebagian besar konten yang dikonsumsi manusia setiap hari adalah gambar, teks, dan video, dan teks tidak memiliki proporsi yang tinggi produsen model besar, satu-satunya cara adalah dengan dapat mengeluarkan konten multi-modal, bukan hanya mengeluarkan konten berbasis teks saja. Ini adalah penilaian yang sangat inti."
Lebih lanjut beliau menyebutkan: “Cuma saja kita buat teks dulu, baru buat suara, dan gambarnya sudah lama sekali. Sekarang teknologinya sudah lebih kuat, (bisa) juga buat video. Jalur ini konsisten, Harus multi -modal. "Di masa lalu, MiniMax membuat model bahasa besar, lalu model suara, dan kemudian model gambar," tetapi sekarang teknologinya menjadi lebih kuat, dan juga harus membuat video. pengandaian".
Menurut insinyur algoritme AI Zhang Yuxuan, meskipun MiniMax belum mengumumkan parameter spesifik dan poin teknis dari model video tersebut, dapat dilihat dari video pembuatan model yang ditampilkan bahwa algoritme perusahaan masih sangat kuat, dan Keling Kuaishou relatif Rekayasa adalah lebih baik.
Yan Junjie mengatakan kepada wartawan: "Apakah itu video, teks, atau suara, ide inti penelitian dan pengembangan tim MiniMax bukanlah untuk meningkatkan algoritme sebesar 5% atau 10%. Yang lebih penting adalah apakah hal itu dapat dilakukan ditingkatkan beberapa kali. Jika bisa ditingkatkan beberapa kali, maka itu harus dilakukan, tidak ada gunanya jika hanya meningkat 5%.”
Dapat dipahami bahwa model video MiniMax saat ini hanyalah versi pertama dan akan diberikan kepada pengguna secara gratis untuk jangka waktu tertentu. Versi baru akan segera tersedia. “Pekerjaan lanjutannya akan fokus pada data dan algoritme itu sendiri, termasuk detail yang lebih nyaman digunakan. Misalnya, saat ini hanya disediakan video berbasis teks. Kedepannya, video berbasis gambar, video yang dihasilkan teks+gambar , serta kemampuan edit dan pengendalian akan dirilis satu demi satu," kata Yan Junjie. .
"Black Myth: Wukong" masih populer, dan AI telah menciptakan gameplay baru di dalam game. Baru-baru ini, Google menunjukkan dalam sebuah makalah bahwa mereka telah menciptakan mesin game real-time pertama yang sepenuhnya digerakkan oleh AI - GameNGen, yang dapat menghasilkan grafik game dari game menembak klasik "Doom" secara real-time dengan kecepatan 20 frame per detik Grafik permainan dihasilkan secara real-time berdasarkan operasi pemain dan interaksi dengan lingkungan yang kompleks, dan setiap frame diprediksi oleh model difusi.
Jadi, apakah AI akan mampu menghasilkan mahakarya game 3A secara real-time di masa depan? Yan Junjie mengatakan bahwa "Mitos Hitam: Wukong" masih menggunakan metode pemodelan dan rendering tradisional. Metode ini mengalami kemajuan yang sangat lambat. Pembuatan video dan pembuatan teks adalah sama. Pembuatan teks dua tahun lalu mungkin tidak tersedia sama sekali sekarang tersedia dan berkembang pesat.
“(Pembuatan video) sebenarnya baru permulaan, karena ini baru tahun pertama, dan kemajuannya pasti akan sangat cepat. Saya tidak tahu apakah ini bisa menggantikan mesin rendering tradisional, tapi setidaknya bisa memberikan kemungkinan. Karena kemajuannya cepat, dalam jangka panjang, semakin cepat kemajuannya, semakin baik,” kata Yan Junjie.
Pertumbuhan penggunaan yang signifikan dan peningkatan daya saing model
Cepat adalah kata kunci yang disebutkan Yan Junjie berkali-kali. “Apakah kita melakukan MoE, perhatian Linear, atau eksplorasi lainnya, intinya adalah membuat model efek yang sama lebih cepat.” Yan Junjie mengatakan bahwa cepat itu baik, yang berarti daya komputasi yang sama bisa menjadi lebih baik penelitian dan pengembangan yang mendasarinya.
Pada saat yang sama, ia juga menunjukkan bahwa cara untuk terus mengurangi tingkat kesalahan model, input dan output yang sangat panjang, dan multi-modalitas adalah tiga tantangan yang harus terus dipecahkan oleh industri.
Menurut perusahaan, MiniMax telah mengalami dua perubahan teknologi utama di masa lalu, termasuk MoE (Mixture of Experts, model pakar campuran) dan Linear Attention (perhatian linier). Pada bulan April tahun ini, perusahaan mengembangkan model generasi baru berdasarkan MoE+ Linear Attention, yang sebanding dengan GPT-4o.
Informasi publik menunjukkan bahwa MiniMax adalah perusahaan rintisan kecerdasan buatan yang didirikan pada Desember 2021. Didirikan oleh Yan Junjie, mantan wakil presiden SenseTime dan mantan wakil direktur lembaga penelitian perusahaan seperti SenseTime.
Tianyancha menunjukkan bahwa pada bulan Maret tahun ini, MiniMax menyelesaikan pembiayaan Seri B senilai US$600 juta, dengan Alibaba sebagai investornya, dan valuasinya mencapai US$2,5 miliar. Sebelumnya, pada Juni 2023, MiniMax menyelesaikan pembiayaan Seri A senilai lebih dari US$250 juta, dan investornya adalah Tencent Investment.
Satu tahun setelah didirikan, MiniMax secara mandiri mengembangkan arsitektur model dasar dari tiga mode: teks-ke-visual, teks-ke-ucapan, dan teks-ke-teks, dan membangun platform penalaran komputasi berdasarkan model dasar.
Dalam hal produk, MiniMax menangani pasar sisi B dan sisi C. Aplikasi sisi C mencakup aplikasi obrolan AI permainan peran Glow, perangkat lunak sosial AI Hoshino, asisten percakapan suara AI Conch WeChat, dan lain-lain. sisi-B menyediakan solusi khusus untuk perusahaan. Antarmuka API memungkinkan perusahaan mengakses berbagai kemampuan model ABAB. Perusahaan seperti Huoshan Engine, Kingsoft Office, DingTalk, Zhaopin Recruitment, dan China Literature semuanya menggunakan layanannya. Data resmi menunjukkan bahwa model MiniMax saat ini berinteraksi dengan pengguna global lebih dari 3 miliar kali sehari, memproses lebih dari 3 triliun token teks, 20 juta gambar, dan 70,000 jam suara. Setahun yang lalu, waktu interaksi MiniMax hanya 3% dari ChatGPT, dan kini proporsinya meningkat menjadi 53%.
Sejak bulan Mei, perang harga telah terjadi di bidang model besar, dan API telah turun ke “harga kubis.” Ketika berbicara tentang perang harga model besar, Yan Junjie menunjukkan bahwa dengan perang harga, banyak perusahaan tradisional mulai bersedia menggunakan model besar, "secara obyektif, jumlah panggilan model telah meningkat pesat."
Pada saat yang sama, hal ini juga mendorong peningkatan kinerja model dari samping. Model-model besar Tiongkok juga menjadi kompetitif di Asia Tenggara dan negara-negara lain di luar negeri. "Persaingan yang sangat ketat di antara model-model domestik sehingga kita harus bergerak maju. Setidaknya di negara-negara yang tidak berbahasa Inggris, kita dapat mencapai tingkat yang sebanding dengan GPT." Yan Junjie mengatakan bahwa persaingan tidak bisa dihindari. Sisi optimisnya menunjukkan dua perubahan positif: pertama, penggunaan model dalam negeri berukuran besar tumbuh secara signifikan, dan kedua, model Tiongkok memang menjadi semakin kompetitif di luar negeri.
Yan Junjie mengatakan sebagian besar perusahaan menganggap model besar itu mahal, namun belakangan banyak orang yang menganggap model besar itu murah dan bisa digunakan dengan percaya diri. Pada akhirnya, saya terkejut menemukan bahwa banyak perusahaan tradisional sangat bersedia menggunakan model besar. Mereka berpikir bahwa biayanya rendah, dan tidak masalah jika mereka melakukan kesalahan. Secara obyektif, hal ini telah meningkatkan jumlah pemanggilan model secara signifikan, sehingga mendorong kinerja model menjadi lebih baik. Setidaknya untuk saat ini, dalam bahasa non-Inggris, tingkat model besar dalam negeri sebanding dengan GPT. Oleh karena itu, dari sudut pandang optimis, penggunaan model-model besar dalam negeri memang meningkat secara signifikan, dan model-model AI besar Tiongkok memang menjadi semakin kompetitif di luar negeri.
Ketika berbicara tentang kemungkinan persaingan langsung dengan perusahaan Internet besar, Yan Junjie mengatakan bahwa yang dapat dia lakukan adalah memperkuat secara tak terbatas hal-hal yang berpotensi menjadi lebih kuat. Yang pertama adalah bagaimana meningkatkan teknologi, dan yang lainnya adalah bagaimana caranya memiliki kerjasama yang lebih baik dengan pengguna.