今日、AI テクノロジーの急速な発展に伴い、パーソナライズされたエクスペリエンスがユーザーの追求の焦点となっています。 AI にユーザーのニーズを真に理解させ、カスタマイズされたサービスを提供する方法は、人工知能の分野における大きな課題となっています。ファーウェイと清華大学が共同開発したPMG(Personalized Multimodal Generation)技術は、この問題を解決する新しいアイデアを提供する。このテクノロジーは、絵文字、T シャツのデザイン、映画ポスターなど、ユーザーの過去の行動や好みに基づいてパーソナライズされたマルチモーダル コンテンツを生成し、より思慮深く便利な AI エクスペリエンスをユーザーにもたらします。
パーソナライゼーションが最も重視されるこの時代、AI はどのようにしてあなたのことをよりよく理解できるのでしょうか。チャット ソフトウェアに「合格しました、とてもうれしいです!」と入力すると、あなたの考えを理解する AI があなたの興奮を認識するだけでなく、それを記憶することを想像してください。あなたはスマイリーな猫の表情が好きなので、あなたに合わせた一連のユニークなスマイリーな猫の表情パックを作成しました。
人工知能のパーソナライズされた生成の分野では、ファーウェイと清華大学が協力して、PMG (Personalized Multimodal Generation) と呼ばれる新技術を開発しました。この技術は、絵文字、T シャツのデザイン、映画ポスターなど、ユーザーの過去の行動や好みに基づいて、ユーザーのパーソナライズされたニーズを満たすマルチモーダル コンテンツを生成できます。
PMG はどのように機能するのですか? PMG は、大規模な言語モデルの推論機能と組み合わせて、ユーザーの視聴履歴と会話履歴を分析することで、ユーザーの好みを抽出します。このプロセスには、明示的なキーワード生成と暗黙的なユーザー嗜好ベクトル生成が含まれており、この 2 つの組み合わせにより、マルチモーダル コンテンツを生成するための豊富な情報基盤が提供されます。
実際のアプリケーションでは、PMG テクノロジーは次の機能を実現できます。
キーワード生成: ユーザーの好みをキーワードとして抽出するように大規模モデルをガイドするためのプロンプト単語を構築します。
隠しベクトル生成: P-Tuning V2 によって微調整されたバイアス補正大規模モデルを使用して、ユーザーの好みのキーワードと対象アイテムのキーワードを組み合わせて、マルチモーダルな生成機能を学習します。
ユーザーの嗜好とターゲットアイテムのバランス:パーソナライズ度や精度を算出し、生成効果を定量的に測定し、生成されるコンテンツを最適化します。
研究チームは、電子商取引の衣料品画像生成、映画ポスターシーン、表現生成という3つの応用シナリオを通じてPMG技術の有効性を検証した。実験結果は、PMG がユーザーの好みを反映したパーソナライズされたコンテンツを生成でき、画像類似性指標 LPIPS および SSIM で良好なパフォーマンスを発揮することを示しています。
この技術は理論的に革新的であるだけでなく、実際の応用においても大きな可能性と商業的価値を示しています。パーソナライゼーションに対する需要の高まりに伴い、PMG テクノロジーは将来的に爆発的な成長を遂げ、より豊かでパーソナライズされたエクスペリエンスをユーザーに提供すると予想されます。
プロジェクトアドレス: https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG
全体として、PMG テクノロジーは、大規模な言語モデルとマルチモーダル生成機能を組み合わせることにより、高度にパーソナライズされたコンテンツ生成を実現し、ユーザーのニーズに近い、より創造的な AI エクスペリエンスを提供します。電子商取引やエンターテインメントなど幅広い分野での応用が期待されており、今後の発展と応用が期待されます。