Llamagen, модель создания авторегрессии, совместно разработанная Гонконгским университетом и байтедэнсом, запускает революцию в области генерации изображений. Как инновационная работа, основанная на архитектуре ламы, она не только прорывается через ограничения традиционной диффузионной модели в технологии, но и вызывает увлечение ответами в сообществе с открытым исходным кодом.
На тесте ImageNet Llamagen превзошел модели диффузии, такие как LDM и DIT, с отличной производительностью. Перепонизуя токенизатор изображения, Llamagen достиг значительных преимуществ в отношении наборов данных ImageNet и Coco, и его производительность даже превзошла хорошо известные модели, такие как VQGAN, VIT-VQGAN и MASKGI.
Успех Лаламагена построен на трех основных технических столбах: усовершенствованное сжатие изображений/квантизатор, масштабируемая модель генерации изображений и тщательно экранированные высококачественные данные обучения. Исследовательская группа приняла архитектуру CNN, аналогичную VQ-Gan, для преобразования непрерывных изображений в дискретные жетоны.
На первом этапе обучения ламаген обучался 50-метровому подмножеству Laion-Coco с разрешением изображения 256 × 256. Исследовательская группа обеспечила качество учебных данных с помощью строгих стандартов скрининга, включая эффективный URL -адрес изображения, эстетический балл, оценку водяного знака и т. Д. Второй этап-точная настройка на внутренних изображениях высокого качества в 10 миллионов масштабов, увеличивая разрешение изображения до 512 × 512, что еще больше оптимизирует эффект генерации.
Основным преимуществом ламагена является его отличный токенизатор изображения и масштабируемость архитектуры ламы. В реальных тестах поколения лаламаген показал сильную конкурентоспособность в ключевых показателях, таких как FID, есть точность и отзыв. По сравнению с предыдущей авторегрессивной моделью, Лаламаген отлично выполнял все заказа параметров, установив новый эталон для области генерации изображений.
Хотя Лаламаген достигла замечательных результатов, исследовательская группа сказала, что это только начало стабильной фазы диффузии V1. Будущие направления разработки будут включать в себя поддержку более высокого разрешения, больше соотношения сторон, более сильную управляемость и новые области, такие как генерация видео. Эти планы показывают, что ламаген будет продолжать возглавлять инновации в технологии генерации изображений в более широкой области.
В настоящее время ламаген был открыт для онлайн -опыта, и пользователи могут лично испытать эту революционную технологию через пространство Llamagen по обниманию лица. В то же время выпуск Llamagen с открытым исходным кодом также предоставляет платформу для глобальных разработчиков и исследователей для участия и внести свой вклад, совместно продвигая продвижение технологии генерации изображений. Адрес проекта и адрес опыта в Интернете: https://top.aibase.com/tool/llamagen и https://huggingface.co/spaces/foundationvision/llamagen, соответственно.