大型モデルはスピードが鍵となる分野ですが、場合によっては遅さが別の種類のスピードになることもあります。
国内AIユニコーン企業MiniMax Shanghai Xiyu Technology Co., Ltd.(以下、MiniMax)は8月31日、初の開発者カンファレンス「MiniMaxLink Partner Day」でビデオモデルabab-video-1を公開した。高解像度と高フレームレートに重点を置いて、最大 6 秒の長さのビデオを生成できます。
つまり、MiniMax が言及したビデオ モデルは、OpenAI の sora の Vincent ビデオ モデルに似ています。 MiniMax の創設者兼 CEO である Yan Junjie は、同社の基礎となる大型モデルの中核技術研究開発目標は「高速」であると考えていますが、ビデオ モデルは Sora よりも数か月遅れています。
「なぜ私たちの発売が1、2か月遅れているのでしょうか?その核心は、私たちがより困難な技術的問題、つまり比較的高い計算能力で物事をネイティブに訓練する方法を解決していることです。」とYan Junjieはチャイナ・ビジネス・ニュースの記者に語った。ビデオ生成機能を開発する場合、まずビデオをトークンに変換する必要がありますが、これらのトークンは非常に長くなり、複雑さが増します。「実際、今年の前半に私たちが主に行ったのは、圧縮率を高くすると、1 ~ 2 か月遅れます。」
MiniMax は、内部評価と実行スコアに基づいて、同社のビデオ モデルは Runway よりも優れたパフォーマンスを発揮すると述べました。現在、Keling は会員制サブスクリプション プランの商用モデルを開始しています。では、MiniMaxビデオモデルのビジネスモデルはどのようなものになるのでしょうか? この点に関して、ヤン・ジュンジエ氏は「われわれの戦略は、あと1、2週間待つことだ。新しいものが登場し、より満足のいく状態になった後、何らかの商業化(措置を)検討するかもしれない」と述べた。
同氏はまた、モデルの急速な進歩により、AI生成ビデオは従来のレンダリングエンジンを置き換えることはできないものの、「Black Myth: Wukong」のような3Aゲームを作成する「少なくとも可能性を提供する」と述べた。
より満足した場合にのみ商品化を検討してください
ビデオモデルの商業化の道筋については言及されなかったが、Yan Junjie氏は「会社全体の商業化は基本的に2つの形態に分けられる。1つの形態は当社のオープンプラットフォームであり、現在2,000社以上の顧客を抱えており、その中には多くの有名人も含まれる」と述べた。従来の企業を含むインターネット企業は、ユーザーがサウンドとビジョンを使用できる機能をすでに備えていますが、すべての企業がそれを Kuaishou のように自社で実行できるわけではありません。これは 2B の部分です。」
「2 つ目は、当社の製品にも広告メカニズムがあり、広告を商業的に収益化できることです。」Yan Junjie 氏は、現段階では「最も重要なことは商業化ではなく、テクノロジーを真に広く普及させることです」と考えています。可用性。"
比較的複雑なテクノロジーを使用して AI によって生成されたビデオ (ビデオ モデル) は、今年、大手模型メーカーが自分の力を誇示する、つまり「筋肉を鍛える」ために一般的な操作となっており、OpenAI はこれを開始しました。今年 2 月に OpenAI は大規模なビデオ モデルである Sora をリリースしましたが、まだ公開テスト用にはリリースされていません。 4 月に Shengshu Technology が大型ビデオ モデル Vidu をリリースし、6 月に Kuaishou が大型ビデオ モデル Keling をリリースし、7 月に Zhipu AI 生成のビデオ モデル Qingying が正式にリリースされました。
MiniMax がビデオ モデルを作成したいのはなぜですか?ヤン・ジュンジエ氏は、本質的には人間が毎日消費するコンテンツのほとんどは写真、テキスト、ビデオであり、テキストが占める割合は高くないということであると述べました。大手模型メーカーにとって唯一の方法は、純粋にテキストベースのコンテンツを出力するのではなく、マルチモーダルなコンテンツを出力できるようにすることです。これは非常に核心的な判断です。」
さらに彼は、「最初にテキストを作り、次に音を作り、そして昔は絵を作っただけです。今ではテクノロジーが強力になったので、ビデオを作ることもできます。このルートは一貫しており、マルチでなければなりません」と述べました。 -modal。「以前は、MiniMax は大きな言語モデルを作成し、次に音声モデルを作成し、次に画像モデルを作成しました。」しかし、現在はテクノロジーが強化されており、このルートは一貫したものでなければなりません。モダリティ」。
AIアルゴリズムエンジニアのZhang Yuxuan氏によると、MiniMaxはビデオモデルの具体的なパラメータや技術的なポイントを発表していないものの、表示されたモデル生成ビデオから同社のアルゴリズムが依然として非常に強力であることがわかり、KuaishouのKelingは比較的エンジニアリングが優れていると述べています。より良い。
Yan Junjie 氏は記者団に対し、「ビデオ、テキスト、サウンドのいずれであっても、MiniMax チームの研究開発の中心的な考え方は、アルゴリズムを 5% や 10% 改善することではありません。より重要なのは、それが実現できるかどうかです」と語った。何度か改善できるならやるべきだし、5%しか改善しないならやる価値はない。」
MiniMax のビデオ モデルは現在最初のバージョンのみであり、一定期間は無料でユーザーに提供される予定ですが、新しいバージョンが間もなく利用可能になる予定です。 「フォローアップ作業は、より使いやすい詳細を含むデータとアルゴリズム自体に焦点を当てます。たとえば、現在はテキストベースのビデオのみが提供されています。将来的には、画像ベースのビデオ、テキスト+画像で生成されたビデオなど、 、編集性や制御性はもちろん、次々とリリースされる予定です」とYan Junjie氏は語った。
『Black Myth: Wukong』は依然として人気があり、AI がゲーム内で新たなゲームプレイを生み出しました。最近、Google は論文の中で、古典的なシューティング ゲーム「Doom」のゲーム グラフィックスを毎秒 20 フレームでリアルタイムに生成できる、初の完全 AI 主導のリアルタイム ゲーム エンジンを作成したと指摘しました。ゲーム グラフィックスは、プレイヤーの操作や複雑な環境とのインタラクションに基づいてリアルタイムで生成され、各フレームは拡散モデルによって予測されます。
では、AI が 3A ゲームの傑作をリアルタイムで生成するのは、遠い将来のことでしょうか? Yan Junjie 氏は、「Black Myth: Wukong」では依然として従来のモデリングおよびレンダリング手法が使用されており、ビデオの生成とテキストの生成は 2 年前とまったく同じではない可能性があると述べました。現在利用可能であり、急速に発展しています。
「(ビデオ生成は)実際には始まりにすぎません。なぜなら、これはまだ最初の年であり、進歩は間違いなく非常に速いものになるでしょう。それが従来のレンダリングエンジンを置き換えることができるかどうかはわかりませんが、少なくとも可能性を提供することはできます」進歩は早いので、長い目で見れば、進歩が早ければ早いほど良いのです」とYan Junjie氏は語った。
使用量が大幅に増加し、モデルの競争力が強化
速いというのはヤン・ジュンジエが何度も言ったキーワードです。 「MoE、リニア アテンション、またはその他の探査を行う場合、本質は同じ効果モデルを高速化することです。」と Yan Junjie 氏は述べました。これは、同じコンピューティング能力でもより優れたものになる可能性があることを意味します。基礎となる研究開発。
同時に同氏は、モデルのエラー率を継続的に低減する方法、無限に長い入出力、マルチモダリティが業界が引き続き解決する必要がある3つの課題であるとも指摘した。
同社によると、MiniMaxは過去にMoE(Mixture of Experts、専門家混合モデル)とLinear Attend(リニア・アテンション)という2つの重要な基盤技術の変更を経験したという。同社は今年4月、GPT-4oに匹敵するMoE+ Linear Attendeeをベースにした新世代モデルを開発した。
公開情報によると、MiniMax は 2021 年 12 月に設立された人工知能のスタートアップ企業です。同社のメンバーは主に著名な AI 出身者であり、SenseTime の元副社長であり、研究所の元副所長である Yan Junjie によって設立されました。センスタイムなどの企業。
Tianyancha 氏は、MiniMax が今年 3 月にアリババを投資家としてシリーズ B の 6 億米ドルの資金調達を完了し、その評価額が 25 億米ドルに達したことを示しています。以前、2023年6月にMiniMaxは2億5,000万米ドルを超えるシリーズA資金調達を完了し、投資家はTencent Investmentでした。
MiniMax は、設立から 1 年後、テキストからビジュアル、テキストから音声、テキストからテキストの 3 つのモードの基本モデル アーキテクチャを独自に開発し、その基本モデルに基づいて計算推論プラットフォームを構築しました。
製品面では、MiniMaxはBサイド市場とCサイド市場の両方を担当しており、Cサイドアプリケーションには、ロールプレイングAIチャットアプリケーションGlow、AIソーシャルソフトウェアHoshin、AI音声会話アシスタントConch WeChatなどが含まれます。 B サイドは、企業向けにカスタマイズされたソリューションを提供しており、企業は、Huoshan Engine、Kingsoft Office、DingTalk、Zhaopin Recruitment、China Literature などのさまざまな機能にアクセスできます。公式データによると、MiniMax のモデルは現在、1 日に 30 億回以上世界中のユーザーとやり取りし、3 兆を超えるテキスト トークン、2,000 万枚の写真、70,000 時間の音声を処理しています。 1 年前、MiniMax のインタラクション時間は ChatGPT のわずか 3% でしたが、現在この割合は 53% に増加しました。
5月以降、大型モデルの分野で価格競争が勃発し、APIは「キャベツ価格」まで下落した。大型モデルの価格戦争について話す際、Yan Junjie 氏は、価格戦争により多くの伝統的な企業が大型モデルの使用に前向きになり始め、「客観的に言えば、モデルコールの数が大幅に増加した」と指摘しました。
同時に、側面からのモデル性能の向上も促進し、東南アジアなど海外でも中国の大型モデルの競争力が高まっている。 「国内モデル間の競争は非常に激しいので、我々は前進しなければなりません。少なくとも非英語圏ではGPTに匹敵するレベルを達成できるでしょう。」とヤン・ジュンジエ氏は競争は避けられないと語った。楽観的な側面としては、2 つの前向きな変化が見られます。1 つは、国内の大型モデルの使用が大幅に増加していること、そして 2 つ目は、中国モデルの海外での競争力が実際にますます高まっていることです。
ヤン・ジュンジエ氏は、ほとんどの企業は大型モデルは高価だと考えていたが、その後、多くの人が大型モデルは安くて安心して使えると考えたと述べた。結局のところ、多くの伝統的な企業が、とにかくコストが安いから、もう一度電話しても構わないと考えて、大きなモデルを積極的に使用していることに気づきました。客観的に言えば、これによりモデル呼び出しの数が大幅に増加し、それによってモデルのパフォーマンスが向上しました。少なくとも現時点では、英語以外の言語では、国内の大規模モデルのレベルは GPT に匹敵します。したがって、楽観的に見ると、国内の大型モデルの使用は確かに大幅に増加しており、中国の大型 AI モデルは海外での競争力が実際にますます高まっています。
大手インターネット企業との真っ向勝負の可能性について語る際、ヤン・ジュンジエ氏は、自分にできることは、より強くなる可能性があるものを無限に増幅させることであると語った。1つはテクノロジーをどう改善するか、もう1つはどうやって改善するかだ。ユーザーとの連携が強化されます。