Tencent a récemment publié un projet appelé ELLA, qui est un grand adaptateur de modèle de langage efficace qui peut améliorer considérablement la capacité du modèle SD existant à comprendre les mots d'invite. Sans formation supplémentaire, ELLA peut être intégré au modèle de diffusion texte-image pour améliorer la capacité du modèle à gérer l'alignement du texte. Son cœur réside dans le connecteur sémantique sensible au pas de temps, qui peut aider le modèle de diffusion à mieux comprendre les invites textuelles à différentes étapes et ainsi à mieux gérer les invites complexes, telles que celles contenant plusieurs objets et différents attributs. Cette innovation devrait apporter de nouvelles possibilités au développement de modèles texte-image et améliorer encore la précision et l’efficacité de la génération d’images IA.
Le projet ELLA publié par Tencent résout intelligemment le problème de la compréhension insuffisante des invites de texte complexes par les modèles de diffusion existants grâce à des connecteurs sémantiques sensibles au pas de temps. Sa méthode d'intégration pratique et ses excellents résultats expérimentaux indiquent qu'ELLA jouera un rôle important dans le domaine de la génération texte-image et favorisera l'avancement continu de la technologie dans ce domaine. L’émergence d’ELLA offre aux utilisateurs une expérience de génération d’images IA plus pratique et plus efficace, et ouvre également une nouvelle direction pour le développement futur de la technologie IA.