MiniMax閔俊傑：大模型快就是好有時候慢是為了更快

作者：Eve Cole 更新時間：2024-11-22 18:24:02

大模型是拼速度的領域，但有時候慢可能是另一種快。

8月31日，國內AI獨角獸企業MiniMax上海稀宇科技有限公司（以下簡稱“MiniMax”）在首屆開發者大會“MiniMaxLink夥伴日”上低調發布視頻模型abab-video-1，輸入提示詞就可產生時長最高6秒的視頻，主打高解析度、高幀率。

換個說法，MiniMax所說的視訊模型類似OpenAI的sora這種文生視訊模型。身為MiniMax的創辦人兼首席執行官，閔俊傑認為「快」是該公司底層大模型的核心技術研發目標，不過，該視頻模型晚了Sora好幾個月。

「為什麼我們的推出要晚一兩個月？核心是我們在解決一個更難的技術問題，即如何能原生訓練算力比較高的東西。」髕俊傑對《中國經營報》記者表示，在訓練當影片產生能力時，需要先把影片轉換成一個個token（代幣），而這些token會非常長，隨之複雜度就越高，「我們其實上半年主要幹的事是把複雜度降低一些，把壓縮率變得更高，所以晚了一兩個月」。

MiniMax介紹，根據內部評測以及跑分，該公司的視訊模型比Runway的效果更好。目前，可靈已推出會員訂閱計畫的商業化模式。那麼，MiniMax視訊模型的商業模式會如何？對此，髕俊傑表示：“我們的策略先再等一兩週，新的東西出來之後，到了一個更加滿意的狀態後，可能會考慮（採取）一些商業化（舉措）。”

他也提到，由於模型進步速度很快，AI生成影片儘管還不能取代傳統的渲染引擎，但為創造出《黑神話：悟空》這樣的3A遊戲，「至少能提供一種可能性」。

到更滿意狀態才考慮商業化

儘管未提及視訊模型的商業化路徑，但髕俊傑表示：「整個公司的商業化基本上分成兩個形式，一個形式是我們的開放平台，現在已經有2000多家的客戶，包括很多知名的網路公司，也包括傳統的企業。這裡面本來就有用戶使用聲音和視覺的能力，不是所有的公司都像快手一樣可以自己做，我們是一個很好的合作夥伴，這是2B部分。

「第二個是我們自己的產品裡也有廣告的機制，廣告可以做商業化的變現。」髕俊傑認為在目前的階段，「最重要的東西還不是商業化，而是真正地讓技術達到廣泛可用的程度。

技術相對複雜的AI生成影片（影片模型），成為今年大模型廠商的展示實力或「秀肌肉」的一個慣常操作，OpenAI開了這個頭。今年2月，OpenAI發布影片大模型Sora，但跳票至今未公測。 4月，生數科技發表影片大模型Vidu；6月，快手發布影片大模型可靈；7月，智譜AI生成影片模型清影正式上線…

MiniMax出於什麼考慮要做視訊模型？髕俊傑表示，本質在於人類每天消費的大部分內容是圖文和視頻，文字佔比不高，「為了能夠有非常高的用戶覆蓋度，以及更高的使用深度，作為大模型廠商，唯一的辦法是能夠輸出多模態的內容，而不是只輸出單純的基於文字的內容，這是一個非常核心的判斷」。

他進一步提到：「只是在之前我們先做出來文字，又做出來聲音，很早前做出來了圖片，現在技術變得更強，（可以）把視頻也做出來。這個路線是一以貫之的，一定要能做多模態。能夠做多模態」。

在AI演算法工程師張昱軒看來，雖然MiniMax並未公佈視訊模型的具體參數和技術要點，但從所展示的模型生成影片中可以看出公司的演算法還是很強的，而快手的可靈相對來說工程技術更好。

而閔俊傑對記者表示：「不管是影片、文字、聲音，MiniMax團隊的核心研發思路不在於要讓演算法提升5%、10%，比較重要的是能否提升幾倍，如果能提升幾倍就一定要做出來，只提升5%就不太值得做。

據了解，MiniMax的影片模型目前只是第一版，將先免費提供給用戶使用一段時間，很快就會有新版本。「後續會在數據、演算法本身，包括更加方便使用的細節，比如現在只提供了文生視頻，未來圖生視頻、文+圖生成視頻，以及可編輯、可控性都會陸續出來。」閔俊傑說。

《黑神話：悟空》的熱度依舊，AI又在遊戲中創造了新玩法。日前，Google在一篇論文中指出，他們打造出了首個完全AI驅動的即時遊戲引擎－GameNGen，能以每秒20幀即時產生經典射擊遊戲《毀滅戰士》的遊戲畫面，所有遊戲畫面都是根據玩家操作，與複雜環境互動而即時生成，每一幀都由擴散模型預測。

那麼，未來AI即時生成3A遊戲大作還會遠嗎？閔俊傑表示，《黑神話：悟空》採用的還是傳統建模渲染的方式，這種方式進步速度已經很慢了，而生成視頻和生成文本是一樣的，兩年前生成文本可能完全不可用，但現在變得可用，且發展速度很快。

「（影片產生）其實都只是一個開始，因為這只是第一年，接下來的進步速度一定會變得非常快。我不太知道能否替代掉傳統的渲染引擎，但是至少能夠提供一種可能性，因為進步速度快，越長期看，進步越快的東西越好。

使用量顯著成長模型競爭力增強

快，是髕俊傑多次提到的關鍵字。「不管是做MoE還是Linear attention，還是其他的探索，本質上還是讓同樣的效果模型變得更快。」閔俊傑表示，快就是好，意味著同樣的算力可以變得更好，這是MiniMax做底層研發的思路。

同時，他也指出，如何讓模型的錯誤率持續降低、無限長的輸入和輸出以及多模態，是業界需要持續解決的三個挑戰。

根據公司介紹，MiniMax在過往經歷了兩次關鍵的底層技術變革，包括MoE（Mixture of Experts，混合專家模型）和Linear Attention（線性注意力）。今年4月，該公司研發出的新一代基於MoE+ Linear Attention的模型，水平比肩GPT-4o。

公開資料顯示，MiniMax是一家成立於2021年12月的人工智慧新創公司，由商湯科技前副總裁、研究院前副院長閔俊傑創立，成員主要來自商湯科技這些知名AI公司。

天眼查顯示，今年3月，MiniMax完成了B輪的6億美元融資，投資方為阿里巴巴，其估值達25億美元。先前的2023年6月，MiniMax完成了超2.5億美元的A輪融資，投資方為騰訊投資。

創立一年後，MiniMax自研了文字轉視覺、文字轉語音、文字轉文字三個模態的基礎模型架構，並在基礎模型之上建構一個運算推理平台。

在產品上，MiniMax同時兼顧B端和C端市場，C端應用有角色扮演類AI聊天應用Glow、AI社交軟體星野、ai語音對話助手海螺問等，B端則是為企業提供客製化的API接口，允許企業接入ABAB模型的各種能力，火山引擎、金山辦公、釘釘、智聯招聘、閱文等公司都在使用其服務。官方數據顯示，目前MiniMax的模型每天與全球用戶進行超30億次交互，處理超3萬億文字token、2000萬張圖片和7萬小時語音。一年前，MiniMax互動時長僅ChatGPT的3%，現在這一比例已提升至53%。

自5月以來，大模型領域掀起價格戰，API降至「白菜價」。談到大模型價格戰時，髕俊傑指出，有了價格戰後，許多傳統的企業開始願意使用大模型，「客觀地來說，非常大地提高了模型的調用量」。

同時，這也從側面推動模型性能的進步，中國的大模型在東南亞等海外也有了競爭力。「國內的模型正是這麼激烈的競爭，推著大家一定要往前趕，目前至少在非英語國家的語種上也能夠有一個跟GPT不相上下的水平。」髕俊傑表示，競爭不可避免，就要努力做到最好，樂觀的一面顯示兩個積極的變化：一是國內大模型的使用量在顯著地增長，二是中國的模型在海外確實越來越具有競爭力。

閔俊傑表示，大部分公司本來認為大模型很貴，之後很多人認為大模型很便宜，可以放心使用。最後驚訝地發現，有許多傳統企業非常願意使用大模型，他們覺得反正成本低，出錯了之後也不要緊，多呼叫一次就好了。客觀來說，這大大提高了模型調用量，從而推動模型做得更好，至少目前在非英語語種上，國內大模型水平已與GPT不相上下。因此，樂觀角度看，國內大模型的使用量確實在顯著地增長，並且中國AI大模型在海外確實越來越具有競爭力。

當談到與網路大廠可能發生正面競爭時，髕俊傑表示，能做的就是把有可能變強的事無限地放大，一個是技術如何做提升，另一個是如何跟用戶做更好的共創。