大模型是拼速度的領域,但有時候慢可能是另一種快。
8月31日,國內AI獨角獸企業MiniMax上海稀宇科技有限公司(以下簡稱“MiniMax”)在首屆開發者大會“MiniMaxLink夥伴日”上低調發布視頻模型abab-video-1,輸入提示詞就可產生時長最高6秒的視頻,主打高解析度、高幀率。
換個說法,MiniMax所說的視訊模型類似OpenAI的sora這種文生視訊模型。身為MiniMax的創辦人兼首席執行官,閔俊傑認為「快」是該公司底層大模型的核心技術研發目標,不過,該視頻模型晚了Sora好幾個月。
「為什麼我們的推出要晚一兩個月?核心是我們在解決一個更難的技術問題,即如何能原生訓練算力比較高的東西。」髕俊傑對《中國經營報》記者表示,在訓練當影片產生能力時,需要先把影片轉換成一個個token(代幣),而這些token會非常長,隨之複雜度就越高,「我們其實上半年主要幹的事是把複雜度降低一些,把壓縮率變得更高,所以晚了一兩個月」。
MiniMax介紹,根據內部評測以及跑分,該公司的視訊模型比Runway的效果更好。目前,可靈已推出會員訂閱計畫的商業化模式。那麼,MiniMax視訊模型的商業模式會如何? 對此,髕俊傑表示:“我們的策略先再等一兩週,新的東西出來之後,到了一個更加滿意的狀態後,可能會考慮(採取)一些商業化(舉措)。”
他也提到,由於模型進步速度很快,AI生成影片儘管還不能取代傳統的渲染引擎,但為創造出《黑神話:悟空》這樣的3A遊戲,「至少能提供一種可能性」。
到更滿意狀態才考慮商業化
儘管未提及視訊模型的商業化路徑,但髕俊傑表示:「整個公司的商業化基本上分成兩個形式,一個形式是我們的開放平台,現在已經有2000多家的客戶,包括很多知名的網路公司,也包括傳統的企業。 這裡面本來就有用戶使用聲音和視覺的能力,不是所有的公司都像快手一樣可以自己做,我們是一個很好的合作夥伴,這是2B部分。
「第二個是我們自己的產品裡也有廣告的機制,廣告可以做商業化的變現。」髕俊傑認為在目前的階段,「最重要的東西還不是商業化,而是真正地讓技術達到廣泛可用的程度。
技術相對複雜的AI生成影片(影片模型),成為今年大模型廠商的展示實力或「秀肌肉」的一個慣常操作,OpenAI開了這個頭。今年2月,OpenAI發布影片大模型Sora,但跳票至今未公測。 4月,生數科技發表影片大模型Vidu;6月,快手發布影片大模型可靈;7月,智譜AI生成影片模型清影正式上線…
MiniMax出於什麼考慮要做視訊模型?髕俊傑表示,本質在於人類每天消費的大部分內容是圖文和視頻,文字佔比不高,「為了能夠有非常高的用戶覆蓋度,以及更高的使用深度,作為大模型廠商,唯一的辦法是能夠輸出多模態的內容,而不是只輸出單純的基於文字的內容,這是一個非常核心的判斷」。
他進一步提到:「只是在之前我們先做出來文字,又做出來聲音,很早前做出來了圖片,現在技術變得更強,(可以)把視頻也做出來。這個路線是一以貫之的,一定要能做多模態。能夠做多模態」。
在AI演算法工程師張昱軒看來,雖然MiniMax並未公佈視訊模型的具體參數和技術要點,但從所展示的模型生成影片中可以看出公司的演算法還是很強的,而快手的可靈相對來說工程技術更好。
而閔俊傑對記者表示:「不管是影片、文字、聲音,MiniMax團隊的核心研發思路不在於要讓演算法提升5%、10%,比較重要的是能否提升幾倍,如果能提升幾倍就一定要做出來,只提升5%就不太值得做。
據了解,MiniMax的影片模型目前只是第一版,將先免費提供給用戶使用一段時間,很快就會有新版本。 「後續會在數據、演算法本身,包括更加方便使用的細節,比如現在只提供了文生視頻,未來圖生視頻、文+圖生成視頻,以及可編輯、可控性都會陸續出來。」閔俊傑說。
《黑神話:悟空》的熱度依舊,AI又在遊戲中創造了新玩法。日前,Google在一篇論文中指出,他們打造出了首個完全AI驅動的即時遊戲引擎-GameNGen,能以每秒20幀即時產生經典射擊遊戲《毀滅戰士》的遊戲畫面,所有遊戲畫面都是根據玩家操作,與複雜環境互動而即時生成,每一幀都由擴散模型預測。
那麼,未來AI即時生成3A遊戲大作還會遠嗎?閔俊傑表示,《黑神話:悟空》採用的還是傳統建模渲染的方式,這種方式進步速度已經很慢了,而生成視頻和生成文本是一樣的,兩年前生成文本可能完全不可用,但現在變得可用,且發展速度很快。
「(影片產生)其實都只是一個開始,因為這只是第一年,接下來的進步速度一定會變得非常快。我不太知道能否替代掉傳統的渲染引擎,但是至少能夠提供一種可能性,因為進步速度快,越長期看,進步越快的東西越好。
使用量顯著成長模型競爭力增強
快,是髕俊傑多次提到的關鍵字。 「不管是做MoE還是Linear attention,還是其他的探索,本質上還是讓同樣的效果模型變得更快。」閔俊傑表示,快就是好,意味著同樣的算力可以變得更好,這是MiniMax做底層研發的思路。
同時,他也指出,如何讓模型的錯誤率持續降低、無限長的輸入和輸出以及多模態,是業界需要持續解決的三個挑戰。
根據公司介紹,MiniMax在過往經歷了兩次關鍵的底層技術變革,包括MoE(Mixture of Experts,混合專家模型)和Linear Attention(線性注意力)。今年4月,該公司研發出的新一代基於MoE+ Linear Attention的模型,水平比肩GPT-4o。
公開資料顯示,MiniMax是一家成立於2021年12月的人工智慧新創公司,由商湯科技前副總裁、研究院前副院長閔俊傑創立,成員主要來自商湯科技這些知名AI公司。
天眼查顯示,今年3月,MiniMax完成了B輪的6億美元融資,投資方為阿里巴巴,其估值達25億美元。先前的2023年6月,MiniMax完成了超2.5億美元的A輪融資,投資方為騰訊投資。
創立一年後,MiniMax自研了文字轉視覺、文字轉語音、文字轉文字三個模態的基礎模型架構,並在基礎模型之上建構一個運算推理平台。
在產品上,MiniMax同時兼顧B端和C端市場,C端應用有角色扮演類AI聊天應用Glow、AI社交軟體星野、ai語音對話助手海螺問等,B端則是為企業提供客製化的API接口,允許企業接入ABAB模型的各種能力,火山引擎、金山辦公、釘釘、智聯招聘、閱文等公司都在使用其服務。官方數據顯示,目前MiniMax的模型每天與全球用戶進行超30億次交互,處理超3萬億文字token、2000萬張圖片和7萬小時語音。一年前,MiniMax互動時長僅ChatGPT的3%,現在這一比例已提升至53%。
自5月以來,大模型領域掀起價格戰,API降至「白菜價」。談到大模型價格戰時,髕俊傑指出,有了價格戰後,許多傳統的企業開始願意使用大模型,「客觀地來說,非常大地提高了模型的調用量」。
同時,這也從側面推動模型性能的進步,中國的大模型在東南亞等海外也有了競爭力。 「國內的模型正是這麼激烈的競爭,推著大家一定要往前趕,目前至少在非英語國家的語種上也能夠有一個跟GPT不相上下的水平。」髕俊傑表示,競爭不可避免,就要努力做到最好,樂觀的一面顯示兩個積極的變化:一是國內大模型的使用量在顯著地增長,二是中國的模型在海外確實越來越具有競爭力。
閔俊傑表示,大部分公司本來認為大模型很貴,之後很多人認為大模型很便宜,可以放心使用。最後驚訝地發現,有許多傳統企業非常願意使用大模型,他們覺得反正成本低,出錯了之後也不要緊,多呼叫一次就好了。客觀來說,這大大提高了模型調用量,從而推動模型做得更好,至少目前在非英語語種上,國內大模型水平已與GPT不相上下。因此,樂觀角度看,國內大模型的使用量確實在顯著地增長,並且中國AI大模型在海外確實越來越具有競爭力。
當談到與網路大廠可能發生正面競爭時,髕俊傑表示,能做的就是把有可能變強的事無限地放大,一個是技術如何做提升,另一個是如何跟用戶做更好的共創。