Tencent lanzó recientemente un proyecto llamado ELLA, que es un adaptador eficiente de modelo de lenguaje grande que puede mejorar significativamente la capacidad del modelo SD existente para comprender palabras breves. Sin capacitación adicional, ELLA se puede integrar en el modelo de difusión de texto a imagen para mejorar la capacidad del modelo para manejar la alineación del texto. Su núcleo radica en el conector semántico que tiene en cuenta los pasos de tiempo, que puede ayudar al modelo de difusión a comprender mejor las indicaciones de texto en diferentes etapas y, por lo tanto, manejar mejor las indicaciones complejas, como aquellas que contienen múltiples objetos y diferentes atributos. Se espera que esta innovación brinde nuevas posibilidades al desarrollo de modelos de texto a imagen y mejore aún más la precisión y eficiencia de la generación de imágenes con IA.
El proyecto ELLA lanzado por Tencent resuelve inteligentemente el problema de la comprensión insuficiente de mensajes de texto complejos por parte de los modelos de difusión existentes a través de conectores semánticos conscientes de pasos de tiempo. Su conveniente método de integración y sus excelentes resultados experimentales indican que ELLA desempeñará un papel importante en el campo de la generación de texto a imagen y promoverá el avance continuo de la tecnología en este campo. La aparición de ELLA brinda a los usuarios una experiencia de generación de imágenes de IA más conveniente y eficiente y también proporciona una nueva dirección para el desarrollo futuro de la tecnología de IA.