Редактор Downcodes узнал, что Google DeepMind и Массачусетский технологический институт (MIT) добились крупного прорыва в области преобразования текста в изображение. Новая авторегрессионная модель Fluid, которую они разработали, демонстрирует отличную производительность при масштабе параметров в 10,5 миллиардов, подрывая понимание в отрасли авторегрессионных моделей в области генерации изображений. Суть этого исследования заключается в инновационном внедрении непрерывных словесных элементов и случайного порядка генерации, что значительно повышает производительность и масштабируемость модели и открывает новое направление в технологии генерации изображений.
Google DeepMind и Массачусетский технологический институт (MIT) недавно опубликовали результаты крупного исследования. Новая авторегрессионная модель Fluid, разработанная исследовательской группой, добилась революционного прогресса в области преобразования текста в изображение. Модель демонстрирует отличную производительность после расширения до масштаба 10,5 миллиардов параметров.
Это исследование подрывает общепринятое мнение в отрасли. Раньше, хотя модели авторегрессии доминировали в области языковой обработки, они считались уступающими моделям диффузии, таким как Stable Diffusion и Google Imagen3, в генерации изображений. Исследователи значительно улучшили производительность и масштабируемость авторегрессионной модели, новаторски введя два ключевых фактора проектирования: использование непрерывных словесных элементов вместо дискретных словесных элементов и введение случайно генерируемого порядка вместо фиксированного.
С точки зрения обработки информации изображения непрерывные словесные элементы имеют очевидные преимущества. Традиционные дискретные токены кодируют области изображения в коды с ограниченным словарем. Такой подход неизбежно приводит к потере информации, и даже крупным моделям сложно точно генерировать подробные характеристики, такие как симметричные глаза. Сплошные словесные элементы позволяют сохранить более точную информацию и значительно улучшить качество реконструкции изображения.
Исследовательская группа также обновила последовательность генерации изображений. Традиционные модели авторегрессии обычно генерируют изображения в фиксированном порядке слева направо и сверху вниз. Исследователи опробовали рандомизированный последовательный подход, позволяющий модели прогнозировать несколько пикселей в любом месте на каждом этапе. Этот метод хорошо работает в задачах, требующих хорошего понимания общей структуры изображения, и добился значительных преимуществ в тесте производительности GenEval, измеряющем соответствие текста и сгенерированных изображений.
Фактическая эффективность модели Fluid подтверждает ценность исследования. После масштабирования до 10,5 миллиардов параметров Fluid превзошел существующие модели в нескольких важных тестах. Стоит отметить, что небольшая модель Fluid всего с 369 миллионами параметров достигла показателя FID (7,23) модели Parti с 20 миллиардами параметров в наборе данных MS-COCO.
Результаты этого исследования показывают, что модели авторегрессии, такие как Fluid, вероятно, станут мощной альтернативой моделям диффузии. По сравнению с диффузионными моделями, которые требуют нескольких прямых и обратных проходов, Fluid требуется только один проход для создания изображений. Это преимущество в эффективности будет более очевидным по мере дальнейшего расширения модели.
Это исследование открывает новые возможности в области преобразования текста в изображение, а появление модели Fluid также знаменует собой появление авторегрессионных моделей в области генерации изображений. В будущем мы можем рассчитывать на появление новых приложений и улучшений на основе моделей Fluid, которые будут способствовать дальнейшему развитию технологии генерации изображений искусственного интеллекта. Редактор Downcodes продолжит обращать внимание на последние события в этой области и предлагать читателям еще больше интересного контента.