ByteDanceとKuaishou、ショートビデオの2大巨人がAIの分野で直接対決に直面している。
11月8日、ByteDanceが所有するAIコンテンツプラットフォームであるDream AIは、ByteDanceが開発したビデオ生成モデルであるSeaweedがプラットフォームユーザーに正式に公開されたと発表した。 ByteDanceによると、今回公開されたお手玉動画生成モデルSeaweedは、このモデルの標準版で、従来より3~5分早い5秒の高品質AI動画を生成するのにかかる時間はわずか60秒だという。すべての国内業界標準には生成時間が必要です。
「デイリー・エコノミック・ニュース」の記者は、Jimeng と Keling の最初のバージョンと最新バージョンで実際のテストを実施し、反復後に 2 つの製品のビデオ生成効果がさまざまな面で、さまざまな程度で改善されたことを発見しました。 Jimeng は、レイアウトと画像の詳細がより正確で、生成されたコンテンツ効果の調整がより柔軟で便利です。生成時間とビデオ スタイルの点で利点があります。
ビジュアルチャイナ
ある大手モデル技術者は記者に対し、ビデオ生成モデルが制作コンテンツのさまざまな「スタイル」を実現するのは困難で、「テクノロジーに加えて、主にデータソースの豊富さに依存する」と語った。
短期間で複数の反復を完了する
ByteDance が自社開発したビデオ生成モデル Seaweed のオープンにより、国内ビデオ生成モデル コンテストで最も興味深いペア、Ji Meng と Ke Ling がついに正式に出場しました。
彼らは両方とも、物理世界を理解し、想像力を最大限に増幅させながら「現実」を導き出すという「AI夢実現計画」を掲げていますが、Ji MengとKe Lingは、ByteDanceとKuaishouの発展の見通しも担っています。
実際、Jimeng 氏と Keling 氏は 1 年以内に数回の反復を完了しました。 Jimeng は 3 月末にビデオ生成機能の内部テストを開始し、ByteDance は Doubao モデル ファミリーの 2 つのビデオ生成モデル、Seaweed と Pixeldance をリリースし、Jimeng AI と Volcano Engine Now を通じて小規模なテストを招待しました。 Seaweedはプラットフォームユーザーに公開されています 正式にオープンします。
工業情報化部情報通信経済専門委員会のメンバーであるパン・ヘリン氏は、『日刊経済ニュース』の記者に対し、Jimengが使用する新型モデルの生成速度が向上し、ユーザーにより良いサービスを提供していると語った。 「Jimeng AI は現在国内の生成分野にあり、依然として相対的にリードしています。」
Keling は 6 月に「誕生」して以来、大ヒットとなり、Tusheng ビデオ機能のリリースや 1.5 モデルの発売など、10 回以上のアップデートが行われました。現在、Keling は 360 万人以上のユーザーを抱え、合計 3,700 万本のビデオを生成しており、近い将来、独立した App (アプリケーション ソフトウェア) を正式にリリースする予定です。
「デイリー経済ニュース」記者は、OpenAIが公式に発表した5つの空のビデオプロンプトワード(東京の路上の女性、宇宙飛行士、ドローン視点の海岸、3Dアニメーションの小さなモンスター、クラウドで読書をする若者)を選択し、個別にテストしました。 Menghe Keling の最初のバージョンと最新バージョンでは、2 つのビデオ生成モデルのビデオ効果を垂直に比較しています。
Jimeng のオリジナル バージョンと最新バージョンで作成されたビデオ エフェクトを比較した後、記者は、Jimeng のアップデートにはより明らかな 2 つの部分があることを発見しました。 1 つは、ダイナミックな「人や物」のパフォーマンスにおいて、動きも大幅に改善されました。もう 1 つは、ピクチャー スタイルの差別化された表現も大きく進歩したことです。
「東京の街角の貴婦人」を例に挙げると、初代ゆめが作成したキャラクターの動きは硬く、特に脚や足の動きの捉え方が硬く、全体的にぼやけて歪んでいました。反復された新しいバージョンの Ji Meng では、キャラクターの動きが自然でスムーズになり、足のダイナミクスの詳細な処理がより明確になり、現実世界のロジックと一致しています。
夢と霊には明らかな違いがある
2 つのモデルを反復した後、生成されるエフェクトはより安定し、画質は向上し、滑らかさと細部の処理は精査に耐えられるようになりました。ただし、意味の理解、キーワードの捕捉と増幅、創造的な想像力と創造的な関連性のバランスにおいては、依然として明らかな違いがあります。
水平比較は、Jimeng の最新バージョンと 1.5 モデル Keling を比較し、5 Sora ビデオ プロンプト ワードのプレゼンテーションを比較します。意味論の理解とキーワードの捕捉により、Jimeng と Keling のビデオ プレゼンテーションは異なったものになります。
「ドローン視点の海岸」ビデオでは、ジー・メンが「灯台のある島」という言葉を比較的ぼかしており、柯玲であろうとソラであろうと、このシーンの焦点は「島」でした。 『コースト・ハイウェイ』の描写において、夢の設定は現実世界の論理と一致しない。
「宇宙飛行士」のビデオエフェクトでは、ジーメンは説明文で「冒険」を説明していませんでしたが、再生後、宇宙飛行士がコーヒーを持ってバイクに乗っているのも「冒険」の設定を無視しました。柯玲は登場人物の表情やカメラの動きを通して「冒険」を強調している。しかし、Ji Meng と Ke Ling はどちらも「映画の予告編」という設定を比較的無視していましたが、対照的に、Sora の「Spaceman」ビデオはより映画的な雰囲気を持っています。
「3Dアニメーションリトルモンスター」ビデオ生成では、ジーメンのリトルモンスターの設定は、アニメ映画「モンスターズインク」のキャラクター「サリー」とほぼ同じです。また、「短髪」設定の実装など、プロンプトの言葉での小さな怪物の説明、つまり夢の表現も比較的不正確です。さらに、芸術的なスタイルの表現の点で、プロンプトの言葉は「照明と質感」を強調しています。つまり、夢の実行は柯陵のものより弱いです。
ビデオ「Lady on the Streets of Tokyo」では、複雑な複数の主題の相互作用のプレゼンテーションにおける Ji Meng のパフォーマンスは、Ke Ling に比べて劣っています。絵の被写体である「女性」も空間の描写も比較的正確だが、絵の中の歩行者は全体的にぼやけており、クローズアップの歩行者も歪んでいる。
ただし、Jimeng AI は、Seaweed および Pixeldance ビデオ生成モデルの Pro バージョンが近い将来に使用可能になることを正式に明らかにしました。 Pro バージョン モデルは、マルチ被写体のインタラクションとマルチショット アクションの一貫性を最適化するとともに、マルチショット切り替えの一貫性などの問題も解決します。
機能と経験の面では、数回の反復を経て、Keling はビデオを生成する際に「創造的な想像力と創造的な関連性」パラメーターを調整し、バランス調整を行うことができます。 Ke Ling は、ぼかし、コラージュ、変形、アニメーションなど、表示したくないコンテンツを設定することもできます。生成操作がより柔軟になり、効果を調整することができます。
テスト後、夢のビデオ生成時間は短くなり、ソラの 5 つのプロンプト ワードのビデオ生成時間はそれぞれ 30 分を超えません。ただし、1.5 モデルでは 10 秒の高画質ビデオを生成するには 10 分以上かかります。
Jimeng と Keling によって生成された上記のビデオは、記者によってテストおよび生成されたものであるため、バージョンや説明の詳細が異なると、ビデオ生成効果に違いが生じることに注意してください。
AI動画生成分野の戦い
ショートビデオの 2 つの巨人である ByteDance と Kuaishou にとって、AI ビデオ生成の分野における敵対者はお互い以上のものです。
たとえば、11 月 8 日、「AI の六小龍」の 1 つである Zhipu は、ビデオ生成ツール Qingying をアップグレードしました。アップグレードされた Qingying は、任意の比率の画像からのビデオ生成をサポートし、同じコマンドまたは画像で一度に 4 つのビデオを生成できるマルチチャンネル生成機能を備えています。さらに、Qingying は映像に合わせた効果音を生成することができます。この効果音機能は今月からパブリックベータ版として公開されます。
これに先立ち、8 月 31 日に MiniMax は、初の AI 高解像度ビデオ生成モデル技術 abab-video-1 をリリースしました。これは、発売から最初の 1 か月間で頻繁に報告を受けました。 MiniMax の公式公開アカウントによると、Conch AI でビデオ モデルが開始されてから最初の 1 か月間で、Conch AI の Web バージョンへのアクセス数は 800% 以上増加し、世界中の 180 以上の国と地域をカバーしています。 9月のAI製品ランキング(Web)で1位となり、世界成長率ランキングでも国内成長率ランキングでも1位となった。
北京社会科学院管理研究所の王鵬准研究員は、「日刊経済ニュース」の記者に対し、国内外のAIビデオ製品は現在急速な発展段階にあり、外国技術が導入されていると指摘した。 Meta や Google などの大手企業は、国内では AI ビデオの分野に積極的に展開しており、Kuaishou Keling、Jimeng AI などの製品もユーザー エクスペリエンスと商品化能力を向上させるために継続的にアップグレードされています。
商業化の可能性に関して、東州証券が今年 8 月に発表した調査報告書では、AI 普及率 15% という中立的な仮定の下で、中国の AI ビデオ生成産業の潜在的なスペースは 3,178 億元であると述べられています。映画、長編ドラマ、アニメ、短編演劇の制作費は従来モデルと比べて95%以上削減される。
巨大な潜在的な市場規模と、コスト削減と効率向上の「スーパーパワー」は、Keling の使用状況データからも垣間見ることができます。
10月に開催された「2024中国コンピュータカンファレンス」で、Kuaishouの副社長で大型モデルチームの責任者であるZhang Di氏は、Kuaishou Keling AIは今年6月のリリース以来、360万人以上のユーザーを抱え、合計 3,700 万のビデオと 1 億以上の画像。
パン・ヘリン氏は、「デイリー・エコノミック・ニュース」の記者とのインタビューで、ケリン社はKuaishouの支援を受けており、トラフィックサポートを受けているため、商用化のプロセスは非常に速いと述べ、「AIビデオ製品は依然としてインターネットプラットフォームによる支援が必要だ。トラフィックに商業的な可能性はあるでしょうか。」
同様に、ByteDance もビデオ モデルの商用化を課題リストの最前線に据えています。今年 9 月に 2 つのビデオ生成モデルが発表されたとき、Volcano Engine の社長である Tan Dai 氏は、新しいビーンバッグビデオ生成モデルは「発表以来、商用化を検討してきた」と公に述べました。その使用分野には、電子商取引マーケティング、アニメーションが含まれます。教育、都市文化観光、マイクロスクリプト。
「AI ビデオは、B サイドと C サイドで異なる商業化の可能性を示すでしょう。」 Wang Peng は、B サイドに対して、AI ビデオは企業に、より効率的で低コストのビデオ制作および配信ソリューションを提供できると考えています。 AI ビデオは、パーソナライズされた高品質のビデオ コンテンツに対するユーザーのニーズを満たすことができ、また、電子商取引、広告、その他の業界と組み合わせて、より正確なマーケティングと収益化を実現することもできます。