Baru-baru ini, gejolak proyek OpenAI dan sora membuat dunia luar khawatir dengan ramainya industri video AI.
Pada akhir September, Mira Murati, chief technology officer OpenAI, dan Barrett Zoff, wakil presiden penelitian, yang memainkan peran penting dalam pengembangan model o1, GPT-4o, dan GPT-4v dan ketua petugas penelitian Bob McGrew juga mengumumkan kepergian mereka.
Pada tanggal 4 Oktober, pemimpin proyek Sora Tim Brooks secara resmi mengumumkan pengunduran dirinya di platform sosial X dan bergabung dengan Google DeepMind.
Jika dimakan bersamaan dengan tidak adanya jadwal pasti untuk versi resmi Sora, itu akan seperti drama familiar di mana gelembung proyek bintang meledak dan setiap orang di dalam game memiliki rencana masing-masing.
Belakangan ini persaingan video AI mulai semakin ketat.
Menurut statistik SameWeb, jumlah total kunjungan ke situs web Luma AI milik perusahaan pembuat video AI terkemuka di dunia pada bulan September hanya 11,81 juta kali, penurunan dari bulan ke bulan sebesar 38,49%. Pika yang sukses besar juga mengalami penurunan total kunjungan di bulan September. Meskipun menjadi populer lagi dengan sejumlah efek template baru dalam versi baru pada bulan Oktober, pertanyaan tentang bagaimana produk dapat terus menarik minat pengguna perlahan-lahan muncul.
Beberapa pihak yang awalnya khawatir terhadap Sora kini sedang dievaluasi ulang, seperti pembuat film Patrick Cederberg yang mengatakan pada bulan April bahwa ia harus membuat model tersebut menghasilkan ratusan klip pendek sebelum ia dapat menemukan satu klip pendek yang tersedia. Dengan kata lain Sora sangat sulit digunakan.
Untungnya, Tim Brooks belum mengucapkan selamat tinggal pada video AI. Dia kemungkinan besar akan bergabung dengan alat pembuatan video AI DeepMind, Veo. Naik turunnya Sora mungkin bukan satu-satunya tolok ukur industri video AI. Setidaknya dari segi kemampuan, penantang seperti Meta Movie Gen mulai mengklaim telah membunuh Sora. Ekosistem produk video AI dalam negeri juga mengalami perubahan baru.
Dengan kata lain, pendinginan trek video AI juga merupakan masa kehamilan sebelum kumpulan produk berikutnya yang lebih baik diluncurkan. Belakangan ini, nampaknya sebuah produk yang cukup menakjubkan telah menarik perhatian publik.
01
PixVerse V3 benar-benar mendobrak dinding dimensi
Karena produk video AI yang beredar di pasaran semakin melimpah sehingga masyarakat mulai mengalami "kelelahan visual", apakah PixVerse V3 benar-benar cukup istimewa?
Jika Anda memiliki keraguan serupa, kemunculan Pikachu ini sudah cukup untuk menghilangkan sebagian besar keraguan tersebut.
Kecuali demonstrasi konferensi pers yang tidak dapat direproduksi, ini mungkin pertama kalinya gambar dua dimensi dan dunia nyata dapat berinteraksi secara harmonis dalam pembuatan video AI.
Dalam gambar tersebut, gambar Pikachu ini sama persis dengan yang kita ingat dari kartunnya, namun ia muncul di jalan yang sangat sibuk, lalu melompat ke pelukan seorang adik laki-laki.
Ini adalah prompt yang diperlukan untuk video ini:
Kamera depan tengah: Pikachu berdiri di jalan kota yang ramai, di samping seorang backpacker. Backpacker berjalan melewati kamera, dan Pikachu berlari dari belakang. Melompat ke pelukan backpacker. Pikachu dengan senang hati memeluk lehernya dan berada sangat dekat. Para pejalan kaki bergegas, dan para backpacker membawa Pikachu ke depan, yang pipinya berbinar-binar karena kegembiraan, menerangi momen itu. Menarik dan mudah.
Pada tahun 1934, "Hollywood Party" yang diproduksi oleh MGM, aksi Jimmy Durant memegang "Mickey Mouse" dengan jarinya menjadi adegan klasik pertama dalam sejarah perfilman dunia yang memadukan kartun dan gambar nyata 90 tahun kemudian, ini Efek yang penuh kecerdikan namun sangat rumit untuk diterapkan akhirnya dapat dilakukan oleh AI.
Yang keterlaluan adalah Pikachu dibuat oleh AI, dan dunia nyata tempat tinggal Pikachu juga dibuat oleh AI. Dilihat dari efeknya, Pixverse V3 memiliki pemahaman animasi yang sangat mulus saat memasuki dunia nyata.
Tidak hanya Pikachu, Anda juga dapat menggunakan perintah berikut, yang sepertinya memiliki terlalu banyak elemen, untuk menghasilkan video Paman Mario memasuki stasiun kereta:
Video tersebut memperlihatkan stasiun kereta api yang ramai dipenuhi beragam penumpang yang menantikan kereta mereka. Kamera menyapu seluruh lokasi, menangkap suasana yang meriah. Super Mario, karakter Italia gagah dengan wajah bulat, mengenakan topi merah ikoniknya dan terusan biru. Kamera mengikuti Mario saat dia melangkah dengan percaya diri ke platform, wajahnya berseri-seri karena kegembiraan.. Video dalam gaya realistis.
Dalam video tersebut, stasiun kereta ramai dengan berbagai macam penumpang yang cemas menunggu kereta. Kamera bergerak melintasi pemandangan, menangkap suasana yang hidup. Saat kereta perlahan mendekati peron, kamera mengikuti karakter Italia bertubuh tinggi dan berwajah bulat, Super Mario. Mengenakan topi merah ikonik dan terusan biru, dia dengan percaya diri berjalan ke peron dengan senyum gembira di wajahnya. Gaya videonya sangat realistis.
Ada protagonis yang berbeda, Mario, dalam gambar tersebut. Setiap kerumunan yang ramai di belakangnya memiliki detail gerakan yang berbeda-beda. Saat Mario berjalan maju di sepanjang kamera, tepian di mana karakter animasi bersinggungan dengan lingkungan nyata juga ditangani dengan sangat jelas dan bersih, pada saat yang sama, kereta juga berhenti di stasiun.
Jika karakter kartun belum bisa memuaskan selera Anda, mari kita lihat bagaimana performa PixVerse V3 di adegan besar.
——Kata kunci: Naga itu tertidur.
Prompt lengkapnya seperti ini:
Steadycam melacak bidikan seekor naga yang menyelam ke dalam air, biksu itu mengangkat tangannya sebagai tanda penghargaan.
Pelacakan Steadicam: Seekor naga menyelam ke dalam air dan seorang biksu mengangkat tangannya sebagai tanda penghargaan.
Meskipun video tersebut masih kekurangan beberapa detail yang disebutkan dalam Prompt, secara keseluruhan, apakah itu konsistensi pergerakan kamera, kemampuan untuk menggunakan nada suram untuk secara halus mengekspresikan ketegangan gambar, dan penggunaan monster di kejauhan dan ditinggalkan. mobil di latar depan Kemampuan pembuatan video PixVerse V3 sudah mulai mendekati kualitas gambar setingkat film.
Selain video Vincent, kali ini PixVerse V3 juga menunjukkan kemampuan video berbasis gambar yang sangat baik.
Video Tusheng sangat imajinatif. Anda dapat mencoba mencari poster film barat Amerika yang tampan, menambahkan petunjuk, dan membiarkan dia melakukan beberapa hal yang "keterlaluan" - seperti menemukan Revolver yang berkualitas buruk:
Promptnya seperti ini:
Prompt lengkapnya seperti ini:
Pistolnya salah tembak dan mengeluarkan asap hitam yang membuat wajah pria itu kotor.
Pistolnya salah tembak dan keluar asap hitam, menodai wajah pria itu.
Perasaan yang paling berbeda dari PixVerse V3 dalam hal kemampuan video Wensheng dan video Tusheng adalah bahwa PixVerse V3 sangat dekat dengan tempat menarik dalam kehidupan sehari-hari masyarakat biasa. Faktanya, kecuali praktisi profesional yang berhubungan dengan pembuatan video, tidak banyak orang yang memiliki kebutuhan untuk menggunakan perangkat lunak video AI untuk menghasilkan karya film dan televisi yang sempurna. Sebaliknya, semakin banyak orang yang baru menggunakan kemampuan pembuatan video yang penasaran apakah kemampuan tersebut dapat dimainkan dengan dunia nyata atau bahkan diri mereka sendiri. Misalnya, Anda dapat memperkenalkan karakter kartun favorit Anda ke tempat-tempat yang Anda kunjungi setiap hari, atau bahkan mengubah diri Anda menjadi karakter kartun seperti Iron Man.
Banyak kesulitan yang saat ini dihadapi oleh produk video AI disebabkan oleh fakta bahwa mereka terjebak dalam promosi kemampuan teknis secara mandiri, dan penggunanya telah menghilang. Pada tahap ketika teknologi video Vincent baru saja muncul, yang mungkin disukai sebagian besar orang awam adalah produk video AI yang cukup dekat dengan mereka dan cukup ramah.
Dari perspektif ini, PixVerse V3 saat ini mungkin merupakan produk yang paling akurat dalam menebak pikiran pengguna.
Kehebatan PixVerse V3 bukan hanya karena kemampuan iteratif model video AI besar di belakang PixVerse V3, tetapi juga optimalisasi kemampuan pemahaman kata yang cepat.
"Subjek + Deskripsi Subjek + Gerakan + Lingkungan" adalah formula Prompt yang memaksimalkan efektivitas pembuatan video AI. Dibandingkan dengan V2.5, kini Anda dapat menambahkan dimensi "deskripsi pengambilan gambar" ke PixVerse V3.
Tentunya selain mengikuti rumus tersebut, Prompt perlu mendeskripsikan tindakan karakter sedetail mungkin dan menghindari deskripsi yang terlalu disederhanakan.
Pada saat yang sama, PixVerse V3 juga memiliki pilihan video keluaran yang lebih kaya. Dalam hal format video keluaran, PixVerse V3 mendukung berbagai rasio video termasuk 16:9, 9:16, 3:4, 4:3, dan 1 :1. , fungsi stilisasi juga telah ditingkatkan setelah pembaruan versi ini. Kini dua mode Vincent Video dan Tusheng Video mendukung empat pilihan gaya yaitu animasi, realitas, tanah liat, dan 3D.
Singkatnya, PixVerse V3 kali ini tidak hanya lebih kuat, bahkan ingin memberikan deskripsi produk ke tangan Anda baris demi baris.
Di platform sosial X, banyak pengikut produk AI yang mulai menggunakan PixVerse V3, seperti Pierrick Chevallier yang memiliki banyak penggemar. Dia bahkan membuat postingan khusus untuk memamerkan video yang dia buat menggunakan PixVerse V3. Selain kemampuan generasinya yang kuat, yang menarik perhatiannya adalah dia menampilkan banyak video yang sangat "bercita rasa Halloween".
02
Halloween ini, biarkan PixVerse V3 melakukan “efek”
Untuk menembus lingkaran produk video AI yang cukup menarik, selain memiliki dukungan teknis yang memadai juga membutuhkan peluang yang baik. Omong-omong, perilisan PixVerse V3 hadir di saat yang tepat.
Tanggal 1 November adalah Halloween, dan momen di penghujung bulan Oktober ini menjadi puncak imajinasi tahunan anak muda. Sehubungan dengan tema Halloween, PixVerse V3 telah merilis serangkaian template bertema Halloween, memungkinkan Anda menggunakan AI untuk "merapal mantra" pada segala sesuatu di sekitar Anda.
Total ada 8 template bertema Halloween yang dirilis di PixVerse V3 kali ini, salah satunya berfokus pada "Transformasi Menjadi Manusia Hidup".
Misalnya, monster muncul entah dari mana di kota.
Selain adegan sebesar itu, PixVerse V3 bisa langsung membuat elemen dalam sebuah foto menjadi "hidup", seperti membuat anak anjing di "I'm Waiting for You in the Rain" benar-benar keluar dari foto:
Anak anjing bahkan memiliki gerakan alami yaitu mengangkat kepalanya sebelum berdiri. Setelah keluar dari foto, foto aslinya hanya menyisakan halaman rumput yang tenang, dan efek keseluruhannya cukup menakjubkan.
Template ini juga memiliki gameplay yang lebih imajinatif. Misalnya, bisakah Manusia Vitruvian dalam karya Leonardo da Vinci dibiarkan keluar dari lingkaran yang membingkainya?
Sesuatu seperti ini:
Mampu menampilkan pertunjukan seperti itu di Halloween sudah cukup memukau penontonnya.
Kali ini, jenis template kedua yang disiapkan oleh PixVerse V3 untuk Halloween mengambil jalur abstrak.
Misalnya, biarkan sebuah kotak besi berdiri dan lari:
Atau hancurkan Porsche menjadi beberapa bagian dan ubah menjadi tumpukan balok:
Tentunya template PixVerse V3 kali ini juga masih banyak lagi efek-efek mirip Halloween yang bisa dimainkan, seperti memasang topi penyihir pada foto karakter lalu dipindahkan, seperti ini:
Templat Halloween ini disertakan dalam fitur Efek baru PixVerse V3. Penggunaannya sangat mudah. Setelah mengunggah gambar, pilih efek yang Anda inginkan dan klik untuk menghasilkannya. Tidak perlu khawatir memasukkan petunjuk di tengah.
Kali ini PixVerse V3 menunjukkan kemampuan generasi multi-modal yang lebih kuat. Berdasarkan video Wensheng dan video Tusheng miliknya sendiri, PixVerse V3 kini dapat membuat video yang dihasilkan membawa konten suara yang diinginkan pengguna, dan jika video aslinya Tidak cukup panjang, PixVerse V3 sekarang memiliki kemampuan untuk membuat kelanjutan lebih lanjut dari video aslinya.
Kemampuan generasi multi-modal ini juga menjadi dua fitur baru yang memulai debutnya di PixVerse V3 bersama dengan Effect. Fungsi pertama adalah Lipsync, yaitu fungsi lip-sync yang dapat menghasilkan sinkronisasi suara karakter multibahasa untuk video.
Fungsi Lipsync memungkinkan pengguna memasukkan copywriting sendiri atau mengunggah file audio berdasarkan video yang dihasilkan, dan kemudian PixVerse akan secara otomatis menyesuaikan bentuk mulut karakter dalam video berdasarkan konten copywriting atau file audio. Saat ini Lipsync dapat mendukung video berdurasi 30 detik, dan bahasa yang dapat melakukan lip-sync antara lain Inggris, China, Prancis, dan Jepang.
Fungsi lainnya adalah untuk memperpanjang video, atau bisa juga diartikan sebagai kelanjutan cerita.
Menanggapi masalah durasi video yang dihasilkan saat ini terlalu pendek, di PixVerse V3, pengguna dapat memilih video yang dihasilkan, klik tombol "Perpanjang", masukkan kata-kata cepat terkait cara mengembangkan video lebih lanjut, klik "buat ", dan video aslinya adalah Arahan yang diusulkan mencapai perkembangan plot sambil mempertahankan tingkat koherensi yang tinggi antara karakter dan tindakan.
Dengan tambahan kemampuan pembuatan video multi-modal, PixVerse V3 kini dapat menghasilkan video AI dengan narasi yang lebih besar dan efek audio-visual yang lebih baik, dan batasan pembuatan video AI semakin diperluas.
Buatlah produk video AI yang benar-benar dapat diputar
“Momen ChatGPT adalah ketika pengguna biasa dapat menggunakannya.” Wang Changhu, pendiri dan CEO Aishi Technology, mengatakan dalam sebuah wawancara pada bulan April tahun ini.
Dalam dua tahun terakhir, setiap secercah teknologi model skala besar telah diubah menjadi narasi besar baru tentang metode produksi, seolah-olah kehidupan manusia akan sepenuhnya ditumbangkan dalam waktu singkat. Namun sejauh ini, hal tersebut belum terjadi.
Pada saat yang sama, kegembiraan yang dibawa oleh Sora dan imajinasi teknis yang terlalu ambisius secara bertahap menyebabkan seluruh bidang produk video AI kehilangan fokus dan tidak ada hubungannya dengan kehidupan publik. Oleh karena itu, di satu sisi, produk video AI seperti Runway yang diposisikan sebagai alat profesional sulit keluar dari lingkaran karena tingginya ambang batas penggunaan publik telah jatuh ke dalam dilema "terbakar setelah membaca" setelah dicoba oleh semua orang. Pengguna Setelah kebaruan hilang, sulit untuk mempertahankan produk tidak memiliki ide pengembangan yang jelas dan spesifik, sehingga tidak punya pilihan selain tenggelam ke dalamnya logika sederhana "filterisasi" dan "efek khusus".
Dengan kata lain, keterbukaan yang sangat besar dari kemampuan generasi AI membuat hampir semua produk saat ini di bidang video AI terlihat seperti produk setengah jadi dan konten yang dihasilkan tidak dapat dikendalikan dikemas ke dalam pengalaman baru, yang juga berarti yang sulit digunakan di lapangan.
Sama seperti ketika dunia luar kagum dengan kemampuan pembuatan manusia balon Sora, Patrick Cederberg merasa terganggu dengan kurangnya konsistensi dalam pembuatan konten Sora. Dia mengeluh bahwa warna balon akan berubah setiap generasi, dan ini Ketidaksempurnaan sangat berarti pekerjaan pasca produksi masih tidak dapat dihindari. Ada banyak masalah serupa, itulah sebabnya meskipun Hollywood mulai menyerang setahun yang lalu karena potensi gangguan industri film oleh model-model besar, setahun kemudian, Sora masih belum bisa benar-benar memasuki alur kerja film dan televisi.
Saat ini, produk video AI kurang lebih terjebak dalam situasi yang sama - meskipun kemampuan pembuatan video AI telah lama menarik perhatian semua orang, produk pembuatan video AI masih merupakan "pertunjukan penjual" yang tampak cantik.
Dalam menghadapi arus teknologi baru, sulit bagi suatu produk untuk tetap “konkret”. Namun, apa yang disampaikan oleh Teknologi Aishi dari versi web PixVerse asli ke PixVerse V3 saat ini adalah jalur iterasi yang jarang dan teratur.
Pada bulan Januari tahun ini, Aishi Technology secara resmi merilis versi web PixVerse, produk video PixVerse. Namun pada saat itu, termasuk PixVerse, masalah yang dihadapi oleh hampir semua produk video Wensheng adalah gambar yang dihasilkan tidak dapat dikontrol, yang berarti pengguna tidak dapat terus-menerus membuat konten video seputar karakter yang menyatu. Tiga bulan kemudian, versi web PixVerse dilengkapi dengan fungsi C2V (Karakter ke Video) yang dikembangkan berdasarkan model video besar yang dikembangkan sendiri, yang awalnya memecahkan masalah konsistensi dalam pembuatan video AI dengan mengekstraksi fitur karakter secara akurat untuk mengunci karakter.
Setelah memperbaiki "peran" dalam video, PixVerse memfokuskan iterasi berikutnya pada "pengendalian" perilaku dalam konten yang dihasilkan. Pada bulan Juni tahun ini, Aishi Technology merilis sikat gerak Magic Brush. Pengguna dapat mengontrol gerakan dan arah setiap elemen secara tepat hanya dengan mengoleskan pada elemen di layar video. PixVerse V2 diluncurkan pada akhir Juli. Selain menunjukkan kontrol yang cukup atas konten yang dihasilkan, kesulitan petunjuknya juga telah berkurang secara signifikan.
Ini adalah iterasi lain dengan maksud yang sangat jelas - "Bentuk produk spesifik perlu dicoba, namun pada akhirnya kami tetap berharap dapat melayani sebagian besar pengguna biasa," seperti yang dikatakan Wang Changhu dalam wawancara sebelumnya.
Ketika kemampuan pembuatan video tidak dapat secara langsung memenuhi kebutuhan pengguna biasa, melayani pembuat konten profesional dan mengembangkan alat generasi berikutnya berdasarkan paradigma pembuatan konten baru adalah prioritas yang lebih tinggi. “Ketika faktor produksi disertakan oleh teknologi – misalnya, AI menggantikan aktor, adegan, dan kamera selama pembuatan film – maka kemampuan pembuatan video AI dapat mulai digunakan oleh publik, dan lingkaran pengguna secara bertahap akan meluas, menciptakan peluang yang sangat besar. "
Kali ini PixVerse 3V mulai mencoba memperkenalkan lebih banyak gameplay yang berhubungan dengan kehidupan masyarakat biasa, dan mencoba menggunakan Prompt untuk mengatur lensa. Dari sudut pandang ini, Aishi Technology telah berada pada jalur yang sangat menentukan dalam memoles arah produknya.
Dalam gelombang teknologi pembuatan video AI, yang mengutamakan perbedaan, pilihan Aishi Technology adalah melawan tren secara keseluruhan, menghindari narasi besar, dan memberikan rencana paling spesifik tentang bagaimana produk video AI dapat diputar.
Hanya ketika orang dapat memegangnya dan memainkannya sebanyak mungkin, aplikasi video AI dapat bertransisi dari "pertunjukan penjual" yang dipimpin oleh Sora ke "pertunjukan pembeli" yang dinamis.
Debut menakjubkan PixVerse V3 mungkin menjadi awal dari perubahan positif lainnya di balik “pendinginan” video AI ini.