A Universidade de Pequim, a Universidade de Stanford e o Pika Labs colaboraram para desenvolver uma nova estrutura gráfica vicentina de código aberto chamada RPG, que aproveita os poderosos recursos dos modelos multimodais de grandes linguagens (LLM) para superar com sucesso dois grandes problemas com a tecnologia gráfica vicentina. Suas principais estratégias incluem a decomposição de prompts de texto, a divisão do espaço da imagem e a geração independente de imagens de sub-regiões, alcançando assim avanços significativos e injetando nova vitalidade no campo da gráfica vicentina. Isto marca um progresso importante no campo da geração de imagens de inteligência artificial e espera-se que promova ainda mais a aplicação e o desenvolvimento desta tecnologia no futuro.
A Universidade de Pequim, Stanford e Pika Labs lançaram em conjunto um novo RPG de estrutura gráfica Vincent de código aberto, que resolve com sucesso dois problemas principais dos gráficos Vincent, aproveitando os recursos do LLM multimodal. Esta estrutura alcançou resultados de pesquisa notáveis através de estratégias centrais, como a decomposição de prompts de texto, a divisão do espaço da imagem e a geração independente de imagens de sub-regiões, trazendo novos avanços para o campo da gráfica vicentina.
O surgimento da estrutura RPG anuncia um novo estágio de desenvolvimento para a tecnologia gráfica vicentina. Seu recurso de código aberto acelerará a iteração tecnológica e a implementação de aplicativos, e espera-se que desempenhe um papel importante na criação de arte, assistência de design e outros campos, trazendo conveniência para mais desenvolvedores e usuários. Esperamos ver aplicações mais inovadoras baseadas na estrutura de RPG no futuro.