最近、OpenAI と sora プロジェクトの混乱により、外部の世界は活況を呈する AI ビデオ業界を懸念しています。
9月末、OpenAIの最高技術責任者であるミラ・ムラティ氏と、o1モデル、GPT-4o、およびGPT-4vモデルの開発で重要な役割を果たした研究担当副社長のバレット・ゾフ氏とチーフが就任した。研究責任者のボブ・マクグルー氏も辞任を発表した。
10月4日、SoraプロジェクトリーダーのTim Brooks氏がソーシャルプラットフォームX上で辞任を正式に発表し、Google DeepMindに参加した。
Sora の正式版の明確なスケジュールが存在しないという事実と併せて食べると、スター プロジェクトのバブルが崩壊し、ゲーム内の全員が独自の計画を持っているおなじみのドラマのようなものになるでしょう。
最近、AI動画競争が激化し始めています。
SamelWeb の統計によると、世界有数の AI ビデオ生成会社である Luma AI Web サイトへの 9 月の総訪問数はわずか 1,181 万回で、前月比 38.49% 減少しました。大ヒットしたナキウサギも、9月には総訪問者数が減少した。 10月の新バージョンでは新たなテンプレートエフェクトが追加され再び人気を博したが、どうすればユーザーの関心を引き続けられるかという課題が徐々に表面化している。
映画監督のパトリック・セダーバーグ氏は4月、利用可能なショートクリップを見つける前にモデルに何百ものショートクリップを生成させる必要があると発言するなど、当初はソラに警戒していた人も今では再評価されている。つまり、ソラは非常に使いにくいのです。
幸いなことに、Tim Brooks は AI ビデオに別れを告げていません。彼はおそらく DeepMind の AI ビデオ生成ツール Veo に参加するでしょう。 Sora の栄枯盛衰だけが AI ビデオ業界の唯一の基準ではないかもしれません。少なくとも能力の点では、Meta Movie Gen のような挑戦者が Sora を打ち負かしたと主張し始めています。国内のAIビデオ製品エコシステムも新たな変化を迎えています。
言い換えれば、AI ビデオ トラックの冷却は、より良い製品の次のバッチが反復される前の準備期間でもあります。最近、十分に素晴らしい製品が世間に登場したようです。
01
PixVerse V3 は本当に次元の壁を打ち破ります
市場に出回っている AI ビデオ製品があまりにも豊富になり、人々が「視覚疲労」を経験し始めている中、PixVerse V3 は本当に十分に特別なものなのでしょうか?
もしあなたが同じような疑問を持っているなら、このピカチュウの登場でそのほとんどは払拭されるでしょう。
再現できない記者会見のデモンストレーションを除けば、AI ビデオ生成において 2 次元画像と現実世界がこれほど調和して相互作用できるのは、おそらくこれが初めてでしょう。
写真では、このピカチュウのイメージは私たちが漫画で覚えているものとまったく同じですが、実際の交通量の多い通りに現れ、弟の腕の中に飛び込みました。
このビデオに必要なプロンプトは次のとおりです。
正面中央のカメラ: ピカチュウはバックパッカーの隣で賑やかな街路に立っています。バックパッカーがカメラの前を通り過ぎ、ピカチュウが後ろから走ってきます。バックパッカーの腕の中に飛び込んだ。ピカチュウは喜んで彼の首に抱きつき、とても近づきました。歩行者は急いで、バックパッカーはピカチュウを前に運び、興奮で頬を輝かせ、その瞬間を照らしました。魅力的でエフォートレス。
1934年にMGMが制作した『ハリウッド・パーティー』では、ジミー・デュラントが「ミッキーマウス」を指で押さえるアクションが、90年を経て漫画と実写を組み合わせた世界映画史上初の古典的なシーンとなった、このエフェクトが満載だ。創意工夫は必要ですが、実装するのは非常に面倒ですが、最終的には AI によって実行できるようになります。
とんでもないのは、ピカチュウはAIによって作られ、ピカチュウが住む現実世界もAIによって作られたということだ。エフェクトから判断すると、Pixverse V3 はアニメーションが現実世界に入り込むことを非常にスムーズに理解しています。
ピカチュウだけでなく、要素が多すぎるように見える次のプロンプトを使用して、駅に入るマリオおじさんのビデオを生成することもできます。
このビデオでは、電車を待ちわびるさまざまな乗客で賑わう駅をカメラが横切り、象徴的な赤い帽子をかぶった、丸顔でがっしりとしたイタリア人のキャラクター、スーパーマリオが活気に満ちた雰囲気を捉えている。青いオーバーオールを着て、自信を持ってホームに上がるマリオをカメラが密着し、彼の顔は興奮で輝いています。ビデオはリアルなスタイルです。
ビデオでは、駅は心配そうに電車を待つさまざまな乗客で賑わっています。カメラはシーン全体をパンして、活気のある雰囲気を捉えます。列車がゆっくりとホームに近づくと、カメラは、象徴的な赤い帽子と青いオーバーオールを着た、背が高く、丸顔のイタリア人キャラクター、スーパー マリオが興奮した笑みを浮かべて自信を持ってホームに上がる様子を追いかけます。ビデオのスタイルは非常にリアルです。
写真には明確な主人公であるマリオがいます。彼の背後にある賑やかな群衆のそれぞれの動きの詳細が異なります。マリオがカメラに沿って前進するにつれて、アニメーションのキャラクターが現実の環境と交差するエッジも非常に明確に処理されます。ときれいに、同時に電車も駅に入ってきました。
漫画のキャラクターでは満足できない場合は、PixVerse V3 が大きなシーンでどのように機能するかを見てみましょう。
——キーワード:竜は眠りにつく。
完全なプロンプトは次のようになります。
水に飛び込むドラゴンを追跡するステディカムのショット。僧侶は腕を上げて感謝の意を表します。
ステディカム追跡: ドラゴンが水に飛び込み、僧侶が腕を上げて感謝します。
このビデオにはまだプロンプトで言及されている詳細の一部が欠けていますが、カメラの動きの一貫性、写真の緊張感を微妙に表現するために暗い色調を使用する能力、遠くに放棄されたモンスターの使用など、全体としては前景に車 PixVerse V3 のビデオ生成機能は、映画レベルの画質に近づき始めています。
Vincent ビデオに加えて、今回 PixVerse V3 は優れた画像ベースのビデオ機能も実証しました。
Tusheng のビデオは非常に想像力に富んでいます。ハンサムなアメリカ西部劇のポスターを見つけて、プロンプトを追加し、低品質のリボルバーに遭遇するなど、彼にいくつかの「とんでもない」ことをさせることができます。
プロンプトは次のようなものです:
完全なプロンプトは次のようになります。
拳銃は黒煙を上げて不発となり、男の顔は汚れた。
拳銃は不発となり黒煙が上がり、男の顔は汚れた。
Wensheng ビデオおよび Tusheng ビデオ機能に関して PixVerse V3 の最も特徴的な感触は、それが一般の人々の日常生活の関心のある点に非常に近いということです。実際、プロのビデオ作成関連の実務者を除いて、AI ビデオ ソフトウェアを使用して完璧な映画やテレビ作品を作成する必要がある人は多くありません。逆に、ビデオ生成能力を使用したばかりの人は、この能力が現実世界や自分自身でもプレイできるかどうかに興味を持っています。たとえば、毎日出かける場所にお気に入りの漫画のキャラクターを導入したり、自分自身をアイアンマンのような漫画のキャラクターに変身させたりすることもできます。
現在、AI映像製品が直面している困難の多くは、技術力の自己宣伝に行き詰まり、ユーザーがいなくなってしまったことに起因する。 Vincent ビデオ テクノロジーが登場したばかりの現段階で、ほとんどの一般人が好むのは、十分に身近で親しみやすい AI ビデオ製品です。
この観点から見ると、現行のPixVerse V3はユーザーの心を最も正確に推測している製品なのかもしれない。
PixVerse V3 の素晴らしさは、PixVerse V3 の背後にある大規模な AI ビデオ モデルの反復機能によるものだけではなく、注意深い人なら上記のプロンプトの例を見て気づくと思います。
「被写体 + 被写体の説明 + 動き + 環境」は、AI ビデオ生成の効果を最大限に高めるプロンプト式です。V2.5 と比較して、PixVerse V3 には「ショットの説明」のディメンションが追加されるようになりました。
もちろん、この公式に従うことに加えて、プロンプトはキャラクターの行動をできるだけ詳細に説明し、過度に単純化された説明を避ける必要があります。
同時に、PixVerse V3 は出力ビデオの選択肢も豊富になり、出力ビデオ形式に関しては、16:9、9:16、3:4、4:3、1 などのさまざまなビデオ比率をサポートします。 :1。今回のバージョンアップ後、スタイル機能もアップグレードされ、Vincent Video と Tusheng Video の 2 つのモードがアニメーション、リアリティ、クレイ、3D の 4 つのスタイルの選択をサポートします。
一言で言えば、PixVerse V3 は今回より強力になっただけでなく、製品の説明を 1 行ずつユーザーの手に渡せるようになりました。
ソーシャル プラットフォーム X では、多くのファンを持つ Pierrick Chevallier など、AI 製品のフォロワーの多くが PixVerse V3 を使い始めています。彼は、PixVerse V3 を使用して生成したビデオを紹介するための専用の投稿も作成しました。強力な生成能力に加えて、目を引くのは非常に“ハロウィン風味”の動画を多く披露していることだ。
02
今年のハロウィーンは、PixVerse V3 に「エフェクト」を実行させましょう
十分に興味深い AI ビデオ製品の輪を突破するには、十分な技術サポートに加えて、良い機会も必要です。そういえば、PixVerse V3 のリリースは良いタイミングで行われました。
11 月 1 日はハロウィーンで、10 月末のこの瞬間は、若者にとって毎年想像力のピークです。ハロウィーンのテーマに関連して、PixVerse V3 はハロウィーンをテーマにした一連のテンプレートをリリースしました。これにより、AI を使用して周囲のあらゆるものに「呪文を唱える」ことができます。
今回PixVerse V3でリリースされたハロウィンをテーマにしたテンプレートは全部で8種類あり、そのうちの1つは「生きている人への変身」に焦点を当てています。
たとえば、街のどこからともなくモンスターが現れます。
このような大きなシーンに加えて、PixVerse V3 では、「雨の中であなたを待っています」の子犬を写真から本当に歩き出すなど、写真内の要素を直接「生きた」ものにすることができます。
子犬は立ち上がる前に頭をあげるという自然な動きもします。写真から出た後、元の写真には静かな芝生だけが残り、全体の効果は非常に見事でした。
このテンプレートには、より想像力豊かなゲームプレイもあります。たとえば、レオナルド・ダ・ヴィンチの作品に登場するウィトルウィウス的人体は、彼を囲む円の外に出ることが許されるのでしょうか?
次のようなもの:
ハロウィーンにこのようなショーを行うことができるということは、観客を驚かせるのに十分です。
今回、PixVerse V3 がハロウィーン用に用意した 2 番目のタイプのテンプレートは、抽象的なルートを採用します。
たとえば、鉄の箱が立ち上がって逃げたとします。
あるいは、ポルシェを粉々に砕いてブロックの山に変えることもできます。
もちろん、今回の PixVerse V3 のテンプレートには、次のように、キャラクターの写真に魔法使いの帽子をかぶせて動かすなど、さらに多くのハロウィーン風のエフェクトも追加されています。
これらのハロウィーン テンプレートは、PixVerse V3 の新しいエフェクト機能に含まれています。使い方はとても簡単で、画像をアップロードした後、必要なエフェクトを選択してクリックするだけです。途中でプロンプトを入力する必要はありません。ハロウィンのことだけを考えている人にとっては非常に親切です。
今回、PixVerse V3 は、独自の Wensheng ビデオと Tusheng ビデオに基づいて、より強力なマルチモーダル生成機能を示し、生成されたビデオにユーザーが望むサウンド コンテンツを含めることができるようになり、元のビデオの長さが十分でない場合は、PixVerse V3 を使用できるようになりました。元のビデオの続きを作成する機能があります。
これらのマルチモーダル生成機能は、Effect とともに PixVerse V3 でデビューする 2 つの新機能でもあります。 1つ目の機能は、動画に対して多言語キャラクターの同期音声を生成できるリップシンク機能です。
リップシンク機能を使用すると、ユーザーは生成されたビデオに基づいて独自のコピーライティングを入力したり、オーディオ ファイルをアップロードしたりできます。その後、PixVerse がコピーライティングまたはオーディオ ファイルの内容に基づいて、ビデオ内のキャラクターの口の形状を自動的に調整します。現在、リップシンクは 30 秒のビデオ長をサポートしており、リップシンクできる言語には英語、中国語、フランス語、日本語が含まれます。
もう 1 つの機能は、ビデオを延長すること、またはストーリーの続きとして理解することです。
現在生成されているビデオの長さが短すぎるという問題に対応して、PixVerse V3 では、ユーザーは生成されたビデオを選択し、「延長」ボタンをクリックし、ビデオをさらに発展させる方法に関するプロンプトの言葉を入力して、「作成」をクリックすることができます。提案された方向性は、キャラクターとアクションの一貫性を高く保ちながらプロットの進行を実現します。
マルチモーダルビデオ生成機能の追加により、PixVerse V3 はより大きな物語と優れたオーディオビジュアル効果を備えた AI ビデオを生成できるようになり、AI ビデオ作成の境界がさらに広がりました。
本当に再生可能な AI ビデオ製品を作成する
「ChatGPTの瞬間は、一般のユーザーがそれを使用できるようになるときだ。」とAishi Technologyの創設者兼最高経営責任者(CEO)のWang Changhu氏は今年4月のインタビューで語った。
過去 2 年間で、大型模型技術の新たな輝きはすべて、あたかも短期間に人類の生活が完全に破壊されるかのように、生産方法に関する新たな壮大な物語に変わりました。しかし、これまでのところ、そのようなことは起こっていません。
同時に、Sora がもたらした興奮と野心的すぎる技術的想像力により、AI ビデオ製品の分野全体が徐々に焦点を失い、社会生活とのつながりが見出されなくなってきました。そのため、Runwayのようなプロ向けのツールとして位置づけられるAI動画製品は敷居が高く、その輪から抜け出すことが難しい一方で、より一般向けの位置づけとなる製品も存在します。ユーザーが皆で試した結果、「読んだら燃えてしまう」というジレンマに陥った 斬新さが薄れた後、製品を維持するのは難しく、明確で具体的な開発アイデアが欠けているため、沈下するしかありません。 「フィルタ処理」と「特殊効果」のシンプルなロジック。
言い換えれば、AI 生成機能の巨大なオープン性により、AI ビデオ分野の現在のほとんどすべての製品は、生成されたコンテンツのランダム性と制御不能性が新しい体験にパッケージ化されているということになります。特定の永続的なシナリオで使用される現場では使用が困難です。
外の世界がソラの風船人間の生成能力に驚いたときと同じように、パトリック・セダーバーグはソラのコンテンツ生成の一貫性の欠如に悩み、風船の色が世代ごとに変わると不満を言いましたが、この不完全性は大きな意味を持っています。ポストプロダクション作業の負担は依然として避けられません。似たような問題はたくさんある。それが、ハリウッドが大物モデルによる映画産業の破壊の可能性を理由に1年前から攻撃を始めたにもかかわらず、1年経った今でもソラが映画やテレビのワークフローに本格的に参入できない理由である。
現在、AI ビデオ製品も多かれ少なかれ同様の状況に陥っています。AI ビデオ生成機能は長い間誰もを興奮させてきましたが、AI ビデオ生成製品は依然として見た目が美しい「売れ筋商品」です。
新しい技術の激流に直面して、製品が「具体的」であり続けることは困難です。ただし、Aishi Technology がオリジナルの PixVerse Web バージョンから現在の PixVerse V3 に提供したものは、稀な明確で秩序ある反復パスです。
今年 1 月、Aishi Technology は PixVerse ビデオ製品である PixVerse の Web バージョンを正式にリリースしました。しかし当時、PixVerse を含め、ほぼすべての Wensheng ビデオ製品が直面していた問題は、生成された画像が制御できないことでした。これは、ユーザーが統一されたキャラクターを中心にビデオ コンテンツを継続的に生成できないことを意味していました。 3 か月後、PixVerse Web バージョンには、自社開発の大規模ビデオ モデルに基づいて開発された C2V (Character to Video) 機能が搭載されました。これにより、文字の特徴を正確に抽出して文字をロックすることで、AI ビデオ作成における一貫性の問題が最初に解決されました。
ビデオ内の「役割」を修正した後、PixVerse は、生成されたコンテンツ内の動作の「制御可能性」にその後の反復に焦点を当てました。今年6月、アイシテクノロジーは、ビデオ画面上の要素を塗りつぶすだけで、各要素の動きと方向を正確に制御できるモーションブラシ「Magic Brush」をリリースしました。 PixVerse V2 は 7 月末にリリースされ、生成されたコンテンツを十分に制御できるようになっただけでなく、プロンプトの難易度も大幅に低下しました。同時に、生成されたエフェクトを微調整する手段も豊富になりました。
これも非常に明確な意図を持った反復です。以前のインタビューで Wang Changhu 氏が語ったように、「特定の製品形式を試す必要がありますが、最終的には大多数の一般ユーザーにサービスを提供したいと考えています」と述べています。
ビデオ生成機能が一般ユーザーのニーズに直接対応できない場合、プロのクリエイターにサービスを提供し、新しいコンテンツ生成パラダイムに基づいて次世代ツールを開発することがより優先されます。 「たとえば、撮影中に俳優、シーン、カメラを AI に置き換えるなど、制作要素がテクノロジーに組み込まれると、AI ビデオ生成機能が一般に使用され始め、ユーザーの輪が徐々に拡大し、大きなチャンスが生まれます。 」
今回のPixVerse 3Vは、より一般の人々の生活に関連したゲームプレイを導入する試みを開始し、レンズ設定にプロンプトを使用することを試みました。後者は、カメラを部分的に置き換える試みと見ることができます。この観点から、Aishi Technology は製品の方向性を磨くという非常に強い決意を持った道を歩んできました。
多様性が美となる AI ビデオ生成の技術の波の中で、Aishi Technology の選択は、全体的なトレンドに逆行し、壮大な物語から距離を置き、AI ビデオ製品がどのように再生されるかについて最も具体的なプランを提供することです。
人々が実際に手に取って、できるだけ遊んでみて初めて、AI ビデオ アプリケーションは、ソラ主導の「売り手ショー」から活気のある「買い手ショー」に移行することができます。
PixVerse V3 の衝撃的なデビューは、AI ビデオのこの「冷却」の背後にある別の前向きな変化の始まりである可能性があります。