Преобразование текста в изображение фотореалистичных изображений высокого разрешения всегда было сложной проблемой в области компьютерного зрения. Хотя традиционные методы генерации, такие как модели диффузии и модели авторегрессии преобразования, могут генерировать высококачественные изображения, они сталкиваются с такими проблемами, как огромное потребление вычислительных ресурсов и потеря деталей. Новая структура «Infinity», предложенная ByteDance, направлена на решение этих проблем. Она значительно повышает эффективность генерации и качество изображений за счет инновационной маркировки на уровне битов и классификаторов с бесконечным словарем.
В области создания изображений задача создания фотореалистичных изображений с высоким разрешением всегда сталкивалась с множеством проблем, особенно в процессе синтеза текста в изображение. Традиционные генеративные методы в основном полагаются на модели диффузии и модели авторегрессии трансформации (VAR).
Хотя эти модели способны создавать изображения высокого качества, они потребляют большое количество вычислительных ресурсов, что делает их негибкими для приложений реального времени. В то же время модель VAR склонна к накоплению ошибок при обработке дискретных маркеров, что приводит к потере деталей в сгенерированном изображении, что влияет на реалистичность изображения.
Чтобы преодолеть эти недостатки, исследовательская группа ByteDance запустила новую платформу под названием «Infinity», которая предназначена для повышения эффективности и качества синтеза текста в изображение.
Infinity обеспечивает более детальное представление за счет введения тегов битового уровня вместо традиционных тегов индексного уровня, тем самым значительно уменьшая ошибки квантования и повышая реалистичность генерируемых изображений. Кроме того, платформа использует бесконечный словарный классификатор (IVC) для расширения словарного запаса токенов до 2^64, что значительно снижает требования к памяти и вычислениям.
Архитектура Infinity в основном состоит из трех частей: многоуровневого квантованного тегера, который преобразует функции изображения в двоичные теги для увеличения вычислительных затрат; авторегрессионная модель на основе преобразователя, которая прогнозирует остатки на основе текстовых сигналов и различий предыдущих выходных данных; механизм самокоррекции, который вводит случайные изменения битов во время процесса обучения для повышения устойчивости модели к ошибкам. Исследовательская группа использовала для обучения большие наборы данных, такие как LAION и OpenImages, и добилась значительного прогресса, постепенно увеличивая разрешение изображения с 256×256 до 1024×102.
После оценки Infinity продемонстрировала отличные результаты по ключевым показателям: ее показатель GenEval составил 0, а начальное расстояние по Фреше (FID) снизилось до 3,48, что продемонстрировало улучшение скорости и качества генерации. Infinity может генерировать изображения высокого разрешения 1024×1024 за 0,8 секунды, демонстрируя свою эффективность и надежность. Изображения, генерируемые системой, не только визуально реалистичны и богаты деталями, но также точно реагируют на сложные текстовые инструкции, что приводит к высоким оценкам человеческих предпочтений.
Запуск Infinity знаменует собой новый этап в синтезе текста в изображение высокого разрешения, стимулируя дальнейшее развитие генеративного искусственного интеллекта путем решения давних проблем масштабируемости и качества детализации с помощью инновационного дизайна.
Статья: https://arxiv.org/abs/2412.04431.
Выделять:
? **Инновационная платформа Infinity:** Платформа Infinity, запущенная Bytedance, значительно повышает эффективность создания изображений с высоким разрешением за счет токенизации на уровне битов и неограниченных словарных классификаторов.
⚡ **Отличная производительность:** Infinity превосходит существующие модели по ключевым оценочным показателям и может генерировать высококачественные изображения 1024×1024 за 0,8 секунды.
?️ ** Аутентичные детали и оперативность: ** Сгенерированные изображения не только визуально реалистичны, но и точно реагируют на сложные текстовые подсказки, демонстрируя высокие оценки человеческих предпочтений.
В целом, платформа Infinity обеспечивает эффективное и высококачественное решение для преобразования текста в изображение высокого разрешения, обеспечивая значительный прорыв в скорости, качестве изображения и реагировании на сложные текстовые инструкции, предоставляя мощную платформу для генеративной разработки. ИИ установил новую веху.