Pika, Peking University e Stanford abriram o código-fonte de uma nova estrutura de modelo de difusão chamada RPG, que usa habilmente a tecnologia de modelo de linguagem grande (LLM) para aprimorar a capacidade do modelo de difusão de compreender e processar palavras complexas. Esta tecnologia inovadora permite que as imagens geradas correspondam com maior precisão aos requisitos de palavras fornecidas pelo usuário, e seu efeito excede até mesmo o premiado Dall·E 3. Esta notícia gerou discussões acaloradas na Internet assim que foi divulgada. Os pesquisadores envolvidos no projeto vieram da Universidade de Pequim, da Universidade de Stanford e da equipe cofundadora da Pika. Esta tecnologia traz novas possibilidades para o campo da geração de imagens de inteligência artificial, vamos esperar para ver o seu desenvolvimento futuro.
Pika se uniu à Universidade de Pequim e Stanford para abrir o código-fonte da estrutura de RPG, usando a tecnologia LLM para melhorar a capacidade do modelo de difusão de compreender palavras complexas, e o efeito excedeu Dall·E 3. A estrutura pode gerar imagens que atendem melhor aos requisitos do prompt word e tem causado discussões acaloradas online. Os autores participantes são da Universidade de Pequim, de Stanford e do cofundador da Pika. Por favor, visite o link original para obter detalhes.
O código aberto da estrutura do RPG marca um grande avanço na tecnologia de geração de imagens de inteligência artificial, fornecendo aos desenvolvedores e pesquisadores novas ferramentas poderosas. No futuro, podemos esperar aplicações mais inovadoras baseadas na tecnologia LLM, trazendo-nos uma experiência de geração de imagens de IA mais incrível.