Downcodes の編集者は、Ultralight-Digital-Human と呼ばれるオープンソース プロジェクトが GitHub 上で激しい議論を引き起こしていることを知りました。このプロジェクトは、デジタルヒューマン技術をモバイル端末に展開するという問題の解決に画期的な進歩をもたらし、通常のスマートフォンでデジタルヒューマンアプリケーションをスムーズに実行できるようになり、デジタルヒューマン技術の応用敷居を大幅に下げ、前例のない普及のチャンスをもたらしました。これはモバイルアプリケーション開発だけでなく、AR/VRなどの分野にも大きな影響を与えるだろう。
最近、Ultralight-Digital-Human と呼ばれるオープンソース プロジェクトが開発者コミュニティで広く注目を集めています。このプロジェクトは、デジタルヒューマン技術をモバイル端末に導入する際の課題を解決することに成功し、一般のスマートフォンでデジタルヒューマンアプリケーションをリアルタイムに実行できるようになり、関連技術の普及に新たな可能性をもたらしました。
この超軽量デジタル ヒューマン モデルは、革新的な深層学習テクノロジーを使用しており、アルゴリズムの最適化とモデル圧縮により、巨大なデジタル ヒューマン システムをモバイル デバイス上でスムーズに実行できるレベルまでスリム化することに成功しました。このシステムはビデオおよびオーディオ入力のリアルタイム処理をサポートしており、迅速な応答とスムーズな操作でデジタル人物画像を迅速に合成できます。
技術的な実装の面では、このプロジェクトは Wenet と Hubert という 2 つの音声特徴抽出ソリューションを統合しており、開発者は特定のアプリケーション シナリオに応じて柔軟に選択できます。同時に、同期ネットワーク (syncnet) 技術の導入により、デジタル ヒューマンの口唇同期効果が大幅に向上しました。モバイル デバイスでのスムーズな操作を保証するために、開発チームはトレーニングと導入プロセス中にパラメータ プルーニング テクノロジを採用し、コンピューティング リソースの要件を効果的に削減しました。
このプロジェクトのもう 1 つのハイライトは、トレーニング プロセスの完全な文書化です。開発者は、3 ~ 5 分の高品質の顔ビデオを準備し、ガイドラインに従うだけで、独自のデジタル ヒューマン モデルのトレーニングを開始できます。システムのビデオ要件も非常に明確です。Wenet モードでは 20fps が必要ですが、Hubert モードでは 25fps が必要です。
トレーニングの効果を確実にするために、プロジェクト チームは、次の重要なリンクに注意を払うように特に注意を払っています。トレーニング データの品質を定期的に監視し、トレーニング パラメーターを調整することです。タイムリーなやり方。これらの詳細は、最終的なデジタル ヒューマンの効果に直接影響します。
現在、このオープンソース プロジェクトは、ソーシャル アプリケーション、モバイル ゲーム、仮想現実などの分野で大きな可能性を示しています。従来のデジタルヒューマン技術と比較して、ハードウェアの敷居を下げるだけでなく、クロスプラットフォーム互換性を実現し、あらゆる種類のスマートフォンで安定して動作します。
プロジェクトアドレス: https://github.com/anliyuan/Ultralight-Digital-Human
Ultralight-Digital-Human プロジェクトは、間違いなくデジタル ヒューマン テクノロジーの開発におけるマイルストーンであり、そのオープンソースの性質により、より多くの開発者に学習と革新の機会が提供されます。将来的には、このプロジェクトをベースにした革新的なアプリケーションがさらに登場すると信じています。楽しみに待ちましょう!