Tencent недавно выпустила проект под названием ELLA, который представляет собой эффективный адаптер большой языковой модели, который может значительно улучшить способность существующей модели SD понимать подсказки. Без дополнительного обучения ELLA можно интегрировать в модель диффузии текста в изображение, чтобы улучшить способность модели обрабатывать выравнивание текста. Его суть заключается в семантическом соединителе с учетом временных шагов, который может помочь модели диффузии лучше понимать текстовые подсказки на разных этапах и, таким образом, лучше обрабатывать сложные подсказки, например, содержащие несколько объектов и разные атрибуты. Ожидается, что это нововведение откроет новые возможности для разработки моделей преобразования текста в изображение и еще больше повысит точность и эффективность генерации изображений ИИ.
Проект ELLA, выпущенный Tencent, умело решает проблему недостаточного понимания сложных текстовых подсказок с помощью существующих моделей распространения посредством семантических коннекторов с учетом временных шагов. Удобный метод интеграции и отличные экспериментальные результаты указывают на то, что ELLA будет играть важную роль в области преобразования текста в изображение и способствовать постоянному развитию технологий в этой области. Появление ELLA предоставляет пользователям более удобный и эффективный опыт создания изображений с помощью искусственного интеллекта, а также открывает новое направление для будущего развития технологий искусственного интеллекта.