我跟萬聖節的AI次元壁，看起來要被PixVerse V3 打破了

作者：Eve Cole 更新時間：2024-11-21 14:42:02

近日，OpenAI 和sora 計畫的動盪讓外界對熱鬧的AI 影片產業捏了一把汗。

9 月末，OpenAI 首席技術長米拉·穆拉蒂（Mira Murati），以及在o1 模型、GPT-4o、GPT-4v 模型的開發過程中扮演了重要角色的研究副總裁巴雷特·佐夫（ Barret Zoph）與首席研究官鮑伯‧麥克格盧（Bob McGrew）也宣布離職。

10 月4 日，Sora 專案負責人 Tim Brooks（Tim Brooks）在社交平台X 上官宣離職，加入GoogleDeepMind。

如果搭配Sora 正式版一直沒有確切時間表的現實一起食用，這像極了某個明星項目泡沫被戳破，局中人各自打算的熟悉戲碼。

而最近AI 影片的競賽，也開始呈現一些白熱化。

根據SimilarWeb 統計，位居全球前列的AI 影片產生企業Luma AI 網站在9 月的總訪問量僅1,181 萬次，季減38.49%。紅極一時的pika 也在9 月總訪問量出現跌落。雖然其在10 月新版本中憑藉一批新的模版效果再次爆火，但產品如何持續的吸引用戶興趣的問題也逐漸浮出水面。

一些最初對Sora 持謹慎態度的聲音現在再次被拿出來重新咀嚼，比如電影製作人帕特里克·塞德伯格（Patrick Cederberg）在4 月所說，他必須讓模型生成數百個短片，才能找到一個可用的短片。換句話說，Sora 的使用非常困難。

所幸的是，Tim Brooks 並沒有告別AI 視頻，他大概率加入了DeepMind 的AI 視頻生成工具Veo。 Sora 的起落或許不是AI 影片產業的唯一標尺，至少在能力上，開始有Meta Movie Gen 這樣的挑戰者開始宣稱幹掉了Sora。而國內的AI 視訊產品生態，也一直在有新的變化。

AI 視訊賽道的降溫，換句話說，也是下一批更好產品迭代出來之前的醞釀期。而最近似乎有了一個足夠驚豔的產品走入大眾視野。

PixVerse V3 真把次元壁打破了

在市面上的AI 視訊產品已經充實到讓人開始「視覺疲勞」情況下，PixVerse V3 真的夠特別？

如果你抱著類似的疑惑，那這隻皮卡丘的出現就夠打消大半。

除了那些無法被復現的發布會演示作品，這大概是AI 視頻生成中二次元形象和真實世界第一次能夠如此和諧的進行互動。

畫面裡，這隻皮卡丘的形象與我們印像中卡通片中的樣子別無二致，但它卻出現在一條真實的繁忙街道上，然後就這麼水靈靈的跳到了一個小哥懷裡。

這是這段影片所需要的prompt：

中置前置鏡頭：皮卡丘站在熙熙攘攘的城市街道上，旁邊是一位背包客，背包客從鏡頭前走過，皮卡丘從背後跑來。跳到了背包客的懷裡。皮卡丘開心的摟著他的脖子，非常親近。行人匆匆忙忙，背包客抱著皮卡丘繼續往前走，皮卡丘的臉頰興奮地閃閃發光，點亮了這一刻。迷人輕鬆。

1934 年，米高梅出品的《Hollywood Party》里吉米·杜蘭特用手指」叼著“米老鼠的動作，成為世界影史中卡通與真實影像結合的第一個經典畫面。90 年後，這個充滿巧思但在實現上卻異常繁瑣的效果終於可以用AI 來代為效勞。

離譜的是，皮卡丘是AI 做的，皮卡丘所在的真實世界也是AI 做的。從效果來看，Pixverse V3 對於動畫進入現實世界這件事，理解的相當絲滑。

不只皮卡丘，你還可以用用下面這段看起來要素過多的Prompt，來產生一個馬裡奧大叔進火車站的影片：

The video shows a bustling train station filled with a diverse crowd of passengers eagerly waiting for their trains. The camera sweeps across the scene, capturing the lively atmosphere. Super Mario, a stout Italian character and aoundm. blue overalls. The camera closely follows Mario as he steps confidently onto the platform, his face beaming with excitement.. The video is in a realistic style.
影片中，火車站熙熙攘攘，各色乘客焦急地等待火車。鏡頭掃過整個場景，捕捉熱鬧的氣氛。當火車緩緩駛近月台時，鏡頭緊跟身材魁梧、臉龐圓潤的意大利人物超級馬裡奧，他戴著他標誌性的紅帽子和藍色工作服，自信地走上站台，臉上洋溢著興奮的笑容。影片的風格很寫實。

畫面裡有著鮮明的主角馬裡奧，背後熙熙攘攘的人群每個人都有各自不同的動作細節，而在馬裡奧沿著鏡頭向前走的同時，動畫人物與真實環境相交的邊緣處理的也非常清晰乾淨，同時，火車也進站了。

如果卡通人物已經滿足不了你的胃口了，那我們來看看PixVerse V3 在大場面上的發揮。

——關鍵字：巨龍入睡。

完整的Prompt 是這樣的：

Steadycam tracking shot of a dragon diving into the water, the monk raises his arms in appreciation.
由斯坦尼康穩定器跟蹤拍攝：一條龍潛入水中，僧侶舉起雙臂以示讚賞。

雖然影片中仍缺乏Prompt 中提到的一些細節，但總體上無論是從運鏡的連貫程度，還是用陰鬱的影調來微妙的表現畫面張力的能力，以及對遠景的怪獸、前景的廢棄汽車的刻畫，PixVerse V3 的影片生成能力都已經開始逼近電影級的圖像質感。

除了文生視頻，這次PixVerse V3 也展現了優秀的圖生視頻能力。

圖生影片的想法可就大了，你可以試試看找一張帥氣的美國西部電影海報，加一段Prompt，讓他做一些「離譜」的事——比如碰到了一把質量不太好的左輪槍：

Prompt 是這樣的：

完整的Prompt 是這樣的：

The pistol misfires with black smoke, which makes the man's face dirty.
手槍啞火，冒出黑煙，弄髒了男子的臉。

PixVerse V3 在文生影片和圖生影片能力上給人最鮮明的感受，就是它無比接近一般人日常生活中的興趣點。事實上，除了專業的影片創作相關從業者，沒有太多人有用AI 影片軟體雕刻一段完美影視作品的需求。反而更多剛用上影片生成能力的人，他們的好奇心在於這個能力能不能跟真實世界甚至自己玩在一起。例如把喜歡的卡通形象引入自己每天出入的場合，甚至把自己變成鋼鐵人之類的動漫人物。

AI 視訊產品目前遇到的困局，很多都是因為陷在技術能力的自嗨裡，而用戶的身影消失了。在這個文生視訊技術剛剛嶄露頭角的階段，可能更大多數的普通人所中意的，首先是一個足夠靠近自己，又足夠親和的AI 視頻產品。

從這個角度來看，當下的PixVerse V3 或許是那個把用戶心思猜的最準的產品。

PixVerse V3 的驚艷除了歸功於PixVerse V3 背後AI 視頻大模型的能力迭代之外，其在提示詞理解能力上的優化也功不可沒，相信看到上面這幾個Prompt 示例，細心的人已經看出來了。

「主體+主體描述+運動+環境」是讓AI 影片產生時能最大可能發揮效用的Prompt 公式，比起V2.5，現在你可以為PixVerse V3 增加一個「鏡頭描述」的維度。

當然，除了遵循這個公式，Prompt 需要盡可能詳細描述人物的動作，避免太簡單的描述。

同時，PixVerse V3 在輸出影片的選擇上也更加豐富，在輸出影片的格式上PixVerse V3 支援包括16:9、9:16、3:4、4:3、1:1 在內的多種影片比例，風格化功能也在本次版本更新後得到升級，現在文生影片和圖生影片兩種模式同時支援動漫、現實、黏土和3D 四種風格選擇。

一句話來說就是，這次PixVerse V3 不但變強了，它甚至想要把產品說明說一行行交到你手上。

在社群平台X 上，許多AI 產品的追蹤者已經開始上手PixVerse V3，例如粉絲眾多的Pierrick Chevallier。他甚至整理了一個專門的貼文來展示自己用PixVerse V3 產生的影片。除了強大的生成能力以外，吸引人眼球的是他在其中展示了許多非常“萬聖節味兒”的影片。

今年萬聖節，讓PixVerse V3 來「搞效果」

一個足夠有趣的AI 視訊產品的破圈，除了要有足夠的技術能力支撐，也需要一個好的契機。說得PixVerse V3 的發布也算是恰逢其時。

11 月1 日是萬聖節，10 月底的此時此刻，正是年輕人一年一度的想像力巔峰。結合萬聖節主題，PixVerse V3 一併發布了一系列萬聖節主題模板，讓你能夠用AI 對身邊的一切「施法」。

這次PixVerse V3 發表的萬聖節主題模板總共有8 個，其中有一類主打的是「大變活人」。

例如無中生有的在城市裡變出一隻怪獸。

除了這種大場面，PixVerse V3 可以直接讓一張照片裡的元素「活」起來，例如讓《我在雨中等你》中的那隻小狗從照片裡真實的走出來：

小狗起身前甚至還有個抬頭的自然動作。而從照片走出來後，原來的照片只留下一片平靜的草坪，整個效果還是挺驚豔的。

這個模版也有更打開想像力的玩法。例如，能不能讓達文西筆下的維特魯威人從那個框住他的圈裡走出來？

類似這樣：

萬聖節能拿出這麼一個節目也夠驚艷全場了。

這次PixVerse V3 為萬聖節準備的第二類模版，走的是抽象路線。

例如讓一個鐵盒站起來逃跑：

或者把一輛保時捷打散，變成一堆積木：

當然，這次PixVerse V3 的模版中也有很多更有萬聖節味兒的效果可以玩，比如給人物照帶上一頂巫師帽，然後動起來，就像這樣：

這些萬聖節模版包含在PixVerse V3 全新上線的Effect 功能中。使用起來很簡單，上傳圖片後，選擇你想要的效果點擊即可進行生成，這中間不需要再費心思輸入Prompt 了，對一門心思都想著萬聖節的人來說非常友好。

而此次PixVerse V3 顯示了更強的多模態生成能力，在本身文生視頻以及圖生視頻的基礎上，PixVerse V3 現在可以讓生成的視頻帶上用戶想要的聲音內容，並且如果原本的視頻長度不夠長，PixVerse V3 現在有能力對原始影片進行進一步的延續創作。

這些多模態生成能力也變成了與Effect 一同在PixVerse V3 首發的兩個新功能。第一個功能是能為影片產生多語言人物聲音同步的對口型功能Lipsync。

Lipsync 功能允許用戶在生成的影片基礎上，自行輸入輸入文案或上傳音訊文件，然後PixVerse 會自動根據文案或音訊檔案內容，對影片中的人物口型進行適配。目前Lipsync 能夠支撐30 秒的視頻長度，可以對口型的語言已經包括了英語，漢語，法語，日語四種。

另一個功能是影片延長Extend，或者可以理解為故事續寫。

針對現在生成視頻長度過短的問題，在PixVerse V3 中用戶可以選擇已經生成的視頻，點擊“Extend”按鈕，輸入與視頻如何進一步發展相關的提示詞，點擊“create”，原視頻就會照著擬定的方向實現情節遞進，同時保持人物和動作高度連貫一致。

多模態視頻生成能力的加入，PixVerse V3 現在能夠生成敘事量更大、視聽效果更佳的AI 視頻，AI 視頻創作的邊界也進一步被拓寬。

做一個真正能玩起來的AI 視訊產品

「當一般用戶也能用起來時，才是ChatGPT 時刻。」愛詩科技創辦人兼CEO 王長虎在今年4 月的一次訪談中說道。

過去兩年，大模型技術透出的每一絲新的微光都會轉變成一場場關於生產方式新的宏大敘事，彷彿人類的生活會在短時間內被完全顛覆。但到目前為止，這一切還沒有發生。

同時，Sora 帶來的興奮以及過於宏大的科技想像讓整個ai 視訊產品領域逐漸失焦，找不到與大眾生活的連結處。所以一方面runway 這種定位是專業工具的AI 視訊產品由於過高的使用門檻而難以破圈，而定位更偏大眾的產品則陷入一種在眾人嚐鮮後的“閱後即焚”困境，用戶在新鮮勁過了之後難以留存，產品缺乏明確而具體的發展思路，於是只好朝著「濾鏡化」「特效化」的簡單邏輯下沉。

換句話說，AI 生成能力巨大的開放性讓AI 影片這個領域目前幾乎所有產品都像是某種半成品，生成內容的隨機性和不可控被包裝成一種新奇體驗，也同時意味著其難以在一種具體而具有持續性的場景中被使用起來。

就像當外界被Sora 氣球人的生成能力所驚豔的時候，帕特里克·塞德伯格則被Sora 內容生成一致性的缺乏所困擾，他抱怨氣球的顏色在每次生成中都會改變，而這樣的瑕疵意味著大量後製的工作量仍然不可避免。類似的問題很多，這也是為什麼雖然好萊塢一年前已經開始為大模型對電影工業潛在的顛覆可能罷工，但一年後，sora 仍然無法真正進入影視的工作流程。

眼下AI 影片產品也都或多或少的陷入了類似的處境——雖然AI 視頻生成能力已經讓所有人興奮了很長一段時間，但AI 視頻生成產品仍然是一場看起來很美的“賣家秀」。

在新的技術洪流面前，一個產品要保持「具體」很難。但愛詩科技從最初的PixVerse 網頁版到現在PixVerse V3 傳遞出來的卻是一條難得的清晰有序的迭代路徑。

今年1 月，愛詩科技正式發表了文生影片產品PixVerse 網頁版。但當時包括PixVerse 在內，幾乎所有的文生視訊產品都會遇到的問題是生成形象的不可控，這意味著用戶無法持續性的圍繞統一角色來產生視訊內容。 3 個月後，PixVerse 網頁版搭載了基於自研視頻大模型開發的C2V（Character to Video）功能，透過精確提取人物特徵來鎖定角色，初步解決AI 影片創作中的一致性難題。

把影片中的「角色」固定下來之後，PixVerse 把之後的迭代重心放在了生成內容中行為的「可控」上。今年6 月，愛詩科技發表Magic Brush 運動筆刷，使用者可透過對影片畫面中內元素簡單的塗塗抹抹，來精準控制各元素的移動及運動方向。 7 月底PixVerse V2 上線，產品中除了展現了足夠多對生成內容的控制能力，Prompt 難度也又了大幅下降，同時微調生成效果的手段則趨於豐富。

這又是一次意圖非常明確的迭代——「具體產品形態需要去試，但最終我們還是希望服務廣大普通用戶」，就像王長虎在先前一次採訪中所說。

當影片生成能力還無法直接滿足一般使用者的需求時，服務專業創作者，基於新的內容生成範式去做下一代的工具是更優先的選擇。「當生產要素被技術囊括後——比如AI 把拍攝時的演員、場景、攝影機取代了——這時候AI 視頻生成能力就可以開始為大眾所用，用戶的圈層會逐漸擴大，就會產生巨大的機會。

這次PixVerse 3V 開始嘗試推出更多與普通人生活相關聯的玩法，並且嘗試用Prompt 來設定鏡頭，後者可以被看作是一種部分代替攝影機的嘗試。如此看來，愛詩科技對產品方向的打磨一直在一條很篤定的道路上。

在AI 影片生成這場以發散性為美的科技浪潮中，愛詩科技的選擇是與整體的流勢相反，遠離宏大敘事，給出一個AI 視訊產品可以怎麼玩的，最具體的方案。

只有盡可能的讓人拿在手裡玩起來，AI 視訊應用才會從Sora 所引領的一場「賣家秀」，過渡到生機盎然的「買家秀」。

PixVerse V3 的驚人登場，或許就是這場AI 影片「降溫」背後，另一個積極變化的開始。