Hoje, com o rápido desenvolvimento da tecnologia de IA, a experiência personalizada tornou-se o foco da busca dos usuários. Como fazer com que a IA realmente entenda as necessidades dos usuários e forneça serviços customizados tornou-se um grande desafio no campo da inteligência artificial. A tecnologia PMG (Geração Multimodal Personalizada) desenvolvida em conjunto pela Huawei e pela Universidade de Tsinghua fornece uma nova ideia para resolver este problema. Essa tecnologia pode gerar conteúdo multimodal personalizado com base no histórico de comportamentos e preferências dos usuários, como emoticons, designs de camisetas e pôsteres de filmes, proporcionando aos usuários uma experiência de IA mais ponderada e conveniente.
Nesta era em que a personalização é fundamental, como a IA pode entendê-lo melhor? Imagine que quando você digita “Passei, estou muito feliz!”, uma IA que entende seus pensamentos não apenas reconhece seu entusiasmo, mas também lembra? que você prefere expressões de gatos sorridentes, por isso criou uma série de pacotes exclusivos de expressões de gatos sorridentes feitos sob medida para você.
No campo da geração personalizada de inteligência artificial, a Huawei e a Universidade de Tsinghua uniram forças para criar uma nova tecnologia chamada PMG (Geração Multimodal Personalizada). Essa tecnologia pode gerar conteúdo multimodal que atenda às necessidades personalizadas do usuário com base no histórico de comportamento e preferências do usuário, como emoticons, designs de camisetas, pôsteres de filmes, etc.
Como funciona o PMG? Ele extrai as preferências do usuário analisando o histórico de visualizações e conversas do usuário, combinado com as capacidades de raciocínio do grande modelo de linguagem. Este processo inclui a geração explícita de palavras-chave e a geração implícita de vetores de preferências do usuário. A combinação dos dois fornece uma rica base de informações para a geração de conteúdo multimodal.
Em aplicações práticas, a tecnologia PMG pode atingir as seguintes funções:
Geração de palavras-chave: construa palavras de prompt para guiar o modelo grande para extrair as preferências do usuário como palavras-chave.
Geração de vetor oculto: Combinando palavras-chave de preferência do usuário e palavras-chave de item alvo, usando o grande modelo de correção de polarização ajustado pelo P-Tuning V2 para aprender recursos de geração multimodal.
Equilíbrio entre preferências do usuário e itens alvo: Calculando o nível de personalização e precisão, medindo quantitativamente o efeito de geração e otimizando o conteúdo gerado.
A equipe de pesquisa verificou a eficácia da tecnologia PMG por meio de três cenários de aplicação: geração de imagens de roupas para comércio eletrônico, cena de pôster de filme e geração de expressão. Os resultados experimentais mostram que o PMG é capaz de gerar conteúdo personalizado que reflete as preferências do usuário e tem um bom desempenho nos indicadores de similaridade de imagem LPIPS e SSIM.
Esta tecnologia não é apenas inovadora em teoria, mas também apresenta grande potencial e valor comercial em aplicações práticas. Com a crescente demanda por personalização, espera-se que a tecnologia PMG experimente um crescimento explosivo no futuro, trazendo aos usuários uma experiência mais rica e personalizada.
Endereço do projeto: https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG
Em suma, a tecnologia PMG alcança a geração de conteúdo altamente personalizada, combinando grandes modelos de linguagem e capacidades de geração multimodal, proporcionando aos usuários uma experiência de IA mais criativa e mais próxima de suas necessidades. Tem amplas perspectivas de aplicação em comércio eletrônico, entretenimento e outras áreas, e vale a pena aguardar seu desenvolvimento e aplicação futuros.