最近、香港大学とbytedanceが開発したモバイルビデオ生成モデルであるGokuが公式にリリースされました。このモデルは、高度な生成アルゴリズムを使用して、テキストプロンプトに基づいて高品質のビデオコンテンツを生成し、デジタルアートの表現を大幅に濃縮します。
悟空モデルの力を示すために、研究チームは、モデルの技術的能力を実証するだけでなく、創造的なパフォーマンスにおける無限の可能性を実証する一連の素晴らしいビデオ例を作成しました。
Gokuモデルは、その効率的な生成速度と画質によって特徴付けられます。大量のデータトレーニングを使用することにより、Gokuはアニメーション、自然な景色、動物の行動などを含むさまざまなシーンを生成できます。研究者は、元のMovieGenbenchプロンプトをテストに使用し、デモンストレーション効果の一貫性と公平性を確保しました。
たとえば、ビデオの1つは、東京の路上を自信を持って歩いているファッショナブルな女性が、暖かい夜を反映してカラフルなネオンライトがあり、歩行者は鮮やかで現実的なシーンで賑わっていることを示しています。
別のビデオでは、雪の上をゆっくりと歩いている巨大な巨大な巨大な巨大なマンモスが、周囲の雪の山や森が氷と雪の世界にいるように感じさせています。これらの鮮明なシーンは、観客の注意を引き付けるだけでなく、芸術的なクリエイターに豊かなインスピレーションを提供します。
さらに驚くべきことは、悟空が仮想デジタルのビデオの直接的な生成もサポートしていることです。 Goku+は、テキストをシュールな人間のビデオに変換します。これは、既存の方法よりも大幅に優れています。特に、安定した手の動きと、人間の被験者の非常に表現力のある顔面および身体の動きを特徴とする20秒間にわたってビデオを生成できます。
さらに、製品画像からインタラクティブなビデオの生成、製品スタイルの維持、製品ディスプレイビデオの生成、テキストからの広告ビデオの生成などの機能をサポートしています。
以下に示すように、Goku+は製品画像を魅力的なビデオクリップに変換して、エンドツーエンドの最適化を確保します。このプロセスは、マーケティング資料の魅力と有効性を高めます。
以下に示すように、特定の製品を紹介するリアルで魅力的なビデオを作成します。これらのビデオは、製品の本質を効果的にキャプチャし、視聴者のエンゲージメントと関心を高めます。
さらに、このモデルは、競合他社の基本的なビデオモデルよりも大幅に優れている広告シナリオを最適化するために、カスタマイズされた高解像度ビデオのテキスト作成をサポートしています。
プロジェクトの入り口:https://saiyan-world.github.io/goku/