Поля генерации изображений и понимания искусственного интеллекта подвергаются быстрому развитию, но производительность существующих моделей в создании изображений и задачах понимания неэффективна и трудно интегрировать. DeepSeek AI запустил Janusflow Framework нацелена на решение этой проблемы, позволяя более эффективной и краткой мультимодальной обработке ИИ путем интеграции понимания изображений и генерации в единую архитектуру.
Несмотря на быстрый прогресс в области генерации изображений и понимания, обусловленного ИИ, остаются серьезные проблемы, которые препятствуют разработке бесшовного, единого подхода.
В настоящее время модели, посвященные пониманию изображений, имеют тенденцию плохо работать в создании высококачественных изображений и наоборот. Эта разделенная задача архитектура не только увеличивает сложность, но и ограничивает эффективность, делая задачи обработки, которые требуют понимания и громоздкого генерации. Кроме того, многие существующие модели слишком сильно полагаются на модификации архитектуры или предварительно обученные компоненты при выполнении какой-либо функции, что приводит к компромиссам производительности и проблемам интеграции.
Чтобы решить эти проблемы, Deepseek AI запустил Janusflow, мощную структуру ИИ, предназначенную для объединения понимания изображений и генерации. Janusflow решает ранее упомянутую проблему неэффективности, интегрируя понимание изображений и генерацию в единую архитектуру. Эта новая структура принимает минималистский дизайн, объединяющий модель авторегрессии с выпрямленным потоком-современный метод генеративного моделирования.
Устраняя необходимость в автономных LLM и генерируемых компонентах, Janusflow обеспечивает более жесткую функциональную интеграцию, одновременно уменьшая архитектурную сложность. Он вводит структуру двойного энкодера-декодера, которая разрабатывает задачи понимания и генерации и обеспечивает согласованность производительности в единой схеме обучения, согласовав представления.
С точки зрения технических деталей, Janusflow объединяет скорректированный поток с большими языковыми моделями легкими и эффективными. Архитектура включает в себя автономный визуальный энкодер для понимания и создания задач. Во время обучения эти кодеры выровняются друг с другом, чтобы улучшить семантическую консистенцию и заставить систему хорошо работать в задачах генерации изображений и визуального понимания.
Эта развязка энкодера предотвращает помехи между задачами, тем самым усиливая возможности каждого модуля. Модель также использует загрузку без классификатора (CFG) для управления выравниванием между генерируемым изображением и условиями текста, тем самым улучшая качество изображения. По сравнению с традиционной унифицированной системой, использующей диффузионные модели в качестве внешних инструментов, Janusflow предоставляет более простой, более прямой процесс генерации с меньшими ограничениями. Эффективность этой архитектуры отражается в его способности соответствовать или превышать производительность многих специфичных для задач моделей в нескольких критериях.
Важность Janusflow заключается в его эффективности и универсальности, заполняя ключевой разрыв в разработке мультимодальной модели. Устраняя необходимость создания и понимания модулей независимо, Janusflow позволяет исследователям и разработчикам выполнять несколько задач с одной структурой, значительно уменьшая сложность и использование ресурсов.
Результаты эталона показывают, что Janusflow набрал 74,9, 70,5 и 60,3 на Mmbench, Seedbench и GQA, соответственно, превосходя многие существующие унифицированные модели. С точки зрения генерации изображений, Janusflow превзошел SDV1,5 и SDXL, а MJHQ FID-30K набрал 9,51, а Женеваль набрал 0,63. Эти метрики демонстрируют превосходную способность генерировать высококачественные изображения и процессовые сложные мультимодальные задачи, требующие только 1,3B параметров.
Вывод заключается в том, что Janusflow сделал важный шаг в разработке единой модели ИИ, которая может одновременно понимать и генерировать изображения. Его минималистский подход, основанный на интеграции авторегрессивных возможностей с корректирующим потоком, не только повышает производительность, но и упрощает модельную архитектуру, чтобы сделать ее более эффективной и доступной.
Размещая визуальный энкодер и выравнивая представления во время обучения, Janusflow успешно устанавливает понимание изображения и генерацию. Поскольку исследование ИИ продолжает прорываться через границы модельных возможностей, Janusflow представляет собой важную веху для создания более универсальных и универсальных мультимодальных систем ИИ.
Модель: https://huggingface.co/deepseek-ai/janusflow-1.3b
Бумага: https://arxiv.org/abs/2411.07975
Очки:
Janusflow - это унифицированная структура, которая интегрирует понимание изображений и генерацию в одну модель, повышая эффективность и работу.
Структура превосходит несколько существующих моделей в нескольких критериях, особенно в создании высококачественных изображений.
Janusflow избегает межзадачных помех и упрощает общую архитектуру путем развязки визуального кодера.
Короче говоря, с его эффективной архитектурой и превосходной производительностью, Janusflow предоставляет новое направление для разработки мультимодальных моделей ИИ и закладывает основу для более мощных применений искусственного интеллекта в будущем. С нетерпением жду его применения и разработки в других областях.