Byte Beatingは、新しいAIシステムOmnihumanを起動します。これは、キャラクターのスピーチ、歌、自然な行動を示すために、単一の写真に基づいて現実的な全身ビデオを生成できます。このテクノロジーは、テキスト、オーディオ、および人間の動きなどのさまざまな入力を統合し、「完全な状態」トレーニング方法を採用して、大規模なデータから学習します。 Omnihumanの出現は、デジタルエンターテイメントとコミュニケーションの分野が新しい変化を導くことを示しており、ビデオ作成、教育コンテンツの制作、デジタルコミュニケーションのための無限の可能性をもたらします。
Omnihumanは、顔面や上半身のみをシミュレートできるAIモデルを上回る、話すときにキャラクターのジェスチャーとダイナミクスを示すためにフルボディビデオを生成することができます。このテクノロジーのコアは、「フルコンディション」トレーニングと呼ばれる革新的な方法を通じて、テキスト、オーディオ、人間の動きなどのさまざまな入力を組み合わせていることです。
研究チームは、18,700時間以上の人間のビデオデータトレーニングの後、オムフマンが大きな進歩を示したことを指摘しました。さまざまな条件付き信号(テキスト、オーディオ、姿勢など)を導入することにより、このテクノロジーはビデオ生成の品質を向上させるだけでなく、データ廃棄物を効果的に削減します。
Arxivで発表された論文で、人間のアニメーションの終わりからエンドの技術は近年大きな進歩を遂げているが、既存の方法にはアプリケーションスケールの拡大に依然として制限があると述べた研究者が述べました。
Omnihumanには幅広いアプリケーションの可能性があり、スピーチビデオを作成したり、楽器のパフォーマンスを実証したりするために使用できます。テスト後、このテクノロジーは複数の品質のベンチマークで既存のシステムよりも優れており、その優れたパフォーマンスを示しています。この開発は、AIビデオ生成テクノロジー間の競争の拡大という文脈で登場し、Google、Meta、Microsoftなどの企業も同様のテクノロジーを積極的に追跡しています。
しかし、オムフマンはエンターテインメントの制作、教育コンテンツの作成、デジタルコミュニケーションの変更の可能性をもたらしますが、合成メディアの潜在的な誤用についても懸念を呼び起こしています。研究チームは、今後のコンピュータービジョン会議で研究結果を発表しますが、特定の時間と会議はまだ発表されていません。
論文:https://arxiv.org/pdf/2502.01061
ポイント:
Omnihumanは、単一の写真を現実的な全身ビデオに変えることができる新しいタイプのAIです。
18,700時間のヒューマンビデオデータトレーニングの後、このテクノロジーはさまざまな入力信号を組み合わせて生成効果を改善します。
広範なアプリケーションの可能性にもかかわらず、合成媒体の可能性についての懸念も呼び起こしています。
Omnihumanテクノロジーのブレークスルーは、AIビデオ生成の分野に新しいベンチマークを設定していますが、同時に、潜在的な倫理的リスクに注意を払う必要があります。合理的に使用し、マイナスの影響を避けます。 将来のオムフマンに関するより多くのアプリケーションと研究結果を楽しみにしています。