O modelo de difusão entende melhor palavras complexas! Pika, uma nova estrutura de código aberto da Universidade de Pequim e Stanford, usa LLM para melhorar a compreensão

Autor：Eve Cole Data da Última Atualização：2025-01-31 00:00:02

Pika, Peking University e Stanford abriram o código-fonte de uma nova estrutura de modelo de difusão chamada RPG, que usa habilmente a tecnologia de modelo de linguagem grande (LLM) para aprimorar a capacidade do modelo de difusão de compreender e processar palavras complexas. Esta tecnologia inovadora permite que as imagens geradas correspondam com maior precisão aos requisitos de palavras fornecidas pelo usuário, e seu efeito excede até mesmo o premiado Dall·E 3. Esta notícia gerou discussões acaloradas na Internet assim que foi divulgada. Os pesquisadores envolvidos no projeto vieram da Universidade de Pequim, da Universidade de Stanford e da equipe cofundadora da Pika. Esta tecnologia traz novas possibilidades para o campo da geração de imagens de inteligência artificial, vamos esperar para ver o seu desenvolvimento futuro.

Pika se uniu à Universidade de Pequim e Stanford para abrir o código-fonte da estrutura de RPG, usando a tecnologia LLM para melhorar a capacidade do modelo de difusão de compreender palavras complexas, e o efeito excedeu Dall·E 3. A estrutura pode gerar imagens que atendem melhor aos requisitos do prompt word e tem causado discussões acaloradas online. Os autores participantes são da Universidade de Pequim, de Stanford e do cofundador da Pika. Por favor, visite o link original para obter detalhes.

O código aberto da estrutura do RPG marca um grande avanço na tecnologia de geração de imagens de inteligência artificial, fornecendo aos desenvolvedores e pesquisadores novas ferramentas poderosas. No futuro, podemos esperar aplicações mais inovadoras baseadas na tecnologia LLM, trazendo-nos uma experiência de geração de imagens de IA mais incrível.