Aujourd'hui, avec le développement rapide de la technologie de l'IA, l'expérience personnalisée est devenue la priorité des utilisateurs. Comment faire en sorte que l’IA comprenne réellement les besoins des utilisateurs et fournisse des services personnalisés est devenu un défi majeur dans le domaine de l’intelligence artificielle. La technologie PMG (Personalized Multimodal Generation) développée conjointement par Huawei et l'Université Tsinghua apporte une nouvelle idée pour résoudre ce problème. Cette technologie peut générer du contenu multimodal personnalisé basé sur les comportements et préférences historiques des utilisateurs, tels que des émoticônes, des designs de T-shirts et des affiches de films, offrant ainsi aux utilisateurs une expérience d'IA plus réfléchie et plus pratique.
À cette époque où la personnalisation est primordiale, comment l'IA peut-elle mieux vous comprendre ? Imaginez que lorsque vous tapez « J'ai réussi, je suis très heureux ! » dans le logiciel de chat, une IA qui comprend vos pensées reconnaît non seulement votre enthousiasme, mais se souvient également. que vous préférez les expressions de chat souriant, il a donc créé une série de packs d'expressions de chat souriant uniques conçus pour vous.
Dans le domaine de la génération personnalisée d'intelligence artificielle, Huawei et l'Université Tsinghua ont uni leurs forces pour créer une nouvelle technologie appelée PMG (Personalized Multimodal Generation). Cette technologie peut générer du contenu multimodal qui répond aux besoins personnalisés de l'utilisateur en fonction de son comportement historique et de ses préférences, tels que des émoticônes, des designs de T-shirts, des affiches de films, etc.
Comment fonctionne PMG ? Il extrait les préférences de l'utilisateur en analysant l'historique de visualisation et de conversation de l'utilisateur, combiné aux capacités de raisonnement du grand modèle de langage. Ce processus comprend la génération explicite de mots clés et la génération implicite de vecteurs de préférences utilisateur. La combinaison des deux fournit une base d'informations riche pour la génération de contenu multimodal.
Dans les applications pratiques, la technologie PMG peut réaliser les fonctions suivantes :
Génération de mots-clés : construisez des mots d'invite pour guider le grand modèle afin d'extraire les préférences de l'utilisateur sous forme de mots-clés.
Génération de vecteurs cachés : combinaison de mots-clés de préférences utilisateur et de mots-clés d'éléments cibles, en utilisant le grand modèle de correction de biais affiné par P-Tuning V2 pour apprendre les capacités de génération multimodale.
Équilibre des préférences des utilisateurs et des éléments cibles : en calculant le niveau de personnalisation et de précision, en mesurant quantitativement l'effet de génération et en optimisant le contenu généré.
L'équipe de recherche a vérifié l'efficacité de la technologie PMG à travers trois scénarios d'application : la génération d'images de vêtements de commerce électronique, la scène d'affiches de films et la génération d'expressions. Les résultats expérimentaux montrent que PMG est capable de générer un contenu personnalisé qui reflète les préférences de l'utilisateur et fonctionne bien sur les indicateurs de similarité d'image LPIPS et SSIM.
Cette technologie est non seulement innovante en théorie, mais présente également un grand potentiel et une grande valeur commerciale dans ses applications pratiques. Avec la demande croissante de personnalisation, la technologie PMG devrait connaître une croissance explosive à l’avenir, offrant aux utilisateurs une expérience plus riche et plus personnalisée.
Adresse du projet : https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG
Dans l’ensemble, la technologie PMG permet une génération de contenu hautement personnalisée en combinant de grands modèles linguistiques et des capacités de génération multimodale, offrant ainsi aux utilisateurs une expérience d’IA plus créative et plus proche de leurs besoins. Il a de larges perspectives d'application dans le commerce électronique, le divertissement et d'autres domaines, et il vaut la peine d'attendre avec impatience son développement et ses applications futurs.