字節豆包直面AI影片降本難題，壓力給了誰？

作者：Eve Cole 更新時間：2024-11-18 11:54:02

自從sora橫空出世開拓AI影片的新紀元以來，國內外各大玩家陸續加入AI影片的競逐賽。但是，當進入這更互動、更沉浸的影片新時代，又該如何應對成本、品質和效能方面的挑戰？

10月15日，火山引擎聯合英特爾共同在視訊雲端技術大會上發布了大模型訓練視訊預處理方案。《每日經濟新聞》記者在記者會現場了解到，目前該技術方案已應用於豆包視訊生成模型。

發表會上，Bytedance Research負責人李航介紹，豆包影片產生模型PixelDance在訓練過程中採用了火山引擎的大模型訓練影片預處理方案，充分利用了大量潮汐資源，為模型訓練提供了有力支撐。

此外，抖音集團視訊架構負責人王悅透露了位元組自研視訊編解碼晶片的最新進展：經過抖音集團內部的實踐驗證，該晶片在同等視訊壓縮效率下，成本節省了95%以上。

「首先，超大規模視訊訓練資料集導致計算和處理成本激增。」王悅指出，大模型廠商在預處理過程中面臨諸多挑戰，「其次是視訊樣本資料參差不齊，然後是處理鏈路環節多、工程複雜，最後還面臨對GPU、CPU、ARM等多種異構算力資源的調度部署。

自研多媒體處理框架

在9月24日的火山引擎AI創新巡展上，PixelDance和Seaweed兩款豆包影片生成大模型一併發布，吸引業內外人士關注。其實，位元組跳動在影片生成模型上下的功夫不止於此。

10月15日，火山引擎發布了大模型訓練視訊預處理方案，致力於解決視訊大模型訓練的成本、品質和效能等方面的技術挑戰。

據介紹，訓練影片預處理是保障大模型訓練效果的重要前提。預處理過程可以統一視訊的資料格式、提高資料品質、實現資料標準化、減少資料量以及處理標註訊息，從而使模型能更有效率地學習影片中的特徵和知識，提升訓練效果和效率。

在影片生成模型的訓練中，算力成本無疑是首屈一指的挑戰。

一位國內視訊生成模型的演算法工程師在接受《每日經濟新聞》記者採訪時表示，在擁有高品質資料後，視訊模型會比大語言模型更難訓練，有更多的算力需求，「目前已知的開源視訊模型沒有特別大，主要是目前許多視訊模型處於不知道如何使用資料的階段，（用於訓練的）高品質資料也沒有特別多」。

電腦科學家Matthias Plappert的研究也顯示，Sora的訓練對算力規模需求龐大，在訓練環節大約需要在4200~10500張Nvidia H100上訓練1個月，且當模型生成到推理環節以後，計算成本將迅速超過訓練環節。

為了解決降本難題，火山引擎借助Intel的CPU等資源，將大模型訓練視訊預處理方案依賴於自研的多媒體處理框架。王悅表示，該方案還在演算法和工程方面進行了調優，可以對海量視訊資料進行高品質預處理，短時間內實現處理鏈路的高效協同，提高模型訓練效率。

對於該方案的應用，李航在記者會現場透露，豆包視訊生成模型PixelDance在訓練過程中已採用此方案。同時，火山引擎視訊雲端團隊提供的隨選解決方案也為PixelDance生產的影片提供了從編輯、上傳、轉碼、分發、播放的全生命週期一站式服務，讓模型的商業化應用有了保障。

此外，在此次發表會上，火山引擎也發布了跨語言同聲復刻直播方案、多模態視訊理解與生成方案、對話式AI即時互動方案和AIG3D&大場景重建方案，從視訊的生產端、交互端到消費端，全鏈路融入AI能力。

AI影片去向何方？

AI正全方位重塑人們生產、傳播和接受訊息的路徑。其中，不斷湧現的視訊新技術將人們從流暢、高清的數據世界帶入了更智慧、更具互動體驗的AI世界。

今年7月，商湯推出了首個針對C端用戶的可控人物影片生成大模型Vimi；8月，MiniMax發布了視訊生成模型video-1；9月，可靈AI完成第九次迭代，發布“可靈1.5模型”，阿里雲在雲棲大會上推出全新的視訊生成模型，位元組也發布了2款視訊生成模型。 AI視訊產品的誕生和迭代幾乎是以月來計時的。

對於AI視頻產品的“爆發”，北京市社會科學院副研究員王鵬在接受《每日經濟新聞》記者採訪時表示，國內AI視頻產品正處於快速發展和不斷迭代的階段，主要因為市場需求旺盛、應用場景廣泛和商業化模式多元等。

目前市面上AI視訊產品的落地大多在影視、電商行銷等領域，例如今年7月，即夢AI和博納影業合作推出了全國首部AIGC生成式連續性敘事科幻短劇集《三星堆：未來啟示錄》；今年9月，快手聯合賈樟柯、李少紅等9位知名導演啟動「可靈AI」導演共創計畫。

工信部資訊通信經濟專家委員會委員盤和林向《每日經濟新聞》記者指出，如今部分AI視頻產品處於導入期，因為技術或合規性，很難在市場上鋪開，“目前感覺開源（AI視訊產品）比閉源的更受歡迎，因為ai影片產生的成本很高，而影片製作者往往缺少資金，所以利用開源的、下載到終端的AI演算法可以更好地製作生成影片」。

在他看來，現階段AI視訊產品主要有算力和合規風險兩方面的障礙。「演算法、算力和資料方面都需要企業投入較多的資源和時間；另一難點在於合規風險，如今對隱私越來越重視，合規是繞不過去的話題，而AI影片有時可能會侵犯個人隱私。

此外，易觀分析研究合夥人陳晨也在接受《每日經濟新聞》記者採訪時表達了對視頻生成大模型短期變現能力的擔憂，“由於AI大模型高昂的模型訓練與推理成本，加之C端用戶對AI工具的需求相對分散，付費意願不足，視頻大模型在C端市場的商業化仍然會面臨一個較長的培育期」。

AI影片的時代來到了，但如何降本增效、拿下更多市場也將成為網路大廠和科技企業面對的重要命題。