Hugging Face выпустила облегченную модель преобразования текста в изображение под названием aMUSEd, которая основана на архитектуре модели маскированного изображения (MIM) и значительно сокращает время генерации изображения. По сравнению с традиционными моделями преобразования текста в изображение, aMUSEd предлагает значительные улучшения в скорости и интерпретируемости, а его способность быстро генерировать изображения впечатляет. Модель aMUSEd в настоящее время доступна в качестве предварительной исследовательской версии на платформе Hugging Face и использует лицензию OpenRAIL для поощрения участия и вклада сообщества.
Модель aMUSEd, запущенная Hugging Face, может генерировать изображения за несколько секунд. Она использует облегченную модель преобразования текста в изображение и архитектуру модели маскированного изображения (MIM), которая значительно сокращает этапы рассуждения и повышает скорость генерации и интерпретируемость. Модель aMUSEd можно опробовать в демо-версии на Hugging Face, и в настоящее время она доступна в качестве предварительной исследовательской версии под лицензией OpenRAIL, где сообществу предлагается продолжить изучение структуры недиффузии для генерации изображений.Возможность быстрого создания модели aMUSEd и открытая лицензия дают ей большой потенциал развития. Ожидается, что в будущем она будет играть более важную роль в области создания изображений, а также обеспечит новое направление для развития технологий искусственного интеллекта. Мы с нетерпением ожидаем дальнейшего изучения и оптимизации этой модели сообществом.