A Tencent lançou recentemente um projeto chamado ELLA, que é um adaptador eficiente de modelo de linguagem grande que pode melhorar significativamente a capacidade do modelo SD existente de compreender palavras imediatas. Sem treinamento adicional, o ELLA pode ser integrado ao modelo de difusão de texto para imagem para melhorar a capacidade do modelo de lidar com o alinhamento do texto. Seu núcleo está no conector semântico com reconhecimento de etapas de tempo, que pode ajudar o modelo de difusão a entender melhor os prompts de texto em diferentes estágios e, assim, lidar melhor com prompts complexos, como aqueles que contêm vários objetos e atributos diferentes. Espera-se que esta inovação traga novas possibilidades para o desenvolvimento de modelos de texto para imagem e melhore ainda mais a precisão e eficiência da geração de imagens de IA.
O projeto ELLA lançado pela Tencent resolve de forma inteligente o problema de compreensão insuficiente de prompts de texto complexos pelos modelos de difusão existentes por meio de conectores semânticos com reconhecimento de passo de tempo. Seu método de integração conveniente e excelentes resultados experimentais indicam que ELLA desempenhará um papel importante no campo da geração de texto para imagem e promoverá o avanço contínuo da tecnologia neste campo. O surgimento do ELLA traz aos usuários uma experiência de geração de imagens de IA mais conveniente e eficiente e também fornece uma nova direção para o desenvolvimento futuro da tecnologia de IA.