Исследовательская группа Disney использовала модель стабильной диффузии v1.2 для разработки нового метода сжатия изображений и достигла более реалистичной генерации изображений с низкой скоростью. Названный «кодек» и его производительность превосходит традиционные кодеки JPEG и AV1, превосходно работая в деталях изображения и затратах на обучение. Это исследование умно коррелирует ошибки квантования с шумом в диффузионной модели, реконструирует изображения с использованием процесса двойного раздела, а также проверяет и проверяет их на нескольких наборах данных.
Исследование показывает, что новый метод работает лучше при восстановлении деталей изображения, в то время как требуемые затраты на обучение значительно снижаются. Исследователи обнаружили, что ошибка квантования (основной процесс в сжатии изображений) очень похожа на шум (процесс ядра в диффузионной модели), поэтому традиционные квантовые изображения можно рассматривать как шумную версию исходного изображения. В этом процессе процесс двойной диффузионной модели используется для реконструкции изображения на целевой скорости.
В серии тестов новый подход Disney превзошел предыдущие методы сжатия изображений как в точности, так и в восстановлении деталей. Исследователи заявили, что их подход не требует дополнительной точной настройки диффузионной модели и может эффективно использовать существующие базовые модели. Преимущество этого нового кодека состоит в том, что он хорошо работает в реконструкции чувства реальности, хотя в некоторых случаях он может испытывать галлюцинации, то есть оно может появиться в сгенерированном изображении и не существует в исходном изображении.
Хотя этот метод сжатия оказывает определенное влияние на представление произведений искусства и обычных фотографий, в некоторых сценариях применения, связанных с деталями, такими как судебные данные, данные о распознавании лица и сканирование оптического распознавания символов (OCR), потенциал явлений галлюцинации. Риск более важен. В настоящее время, хотя эта технология все еще находится на ранних стадиях, проблемы в этой области постепенно возникают с разработкой технологии сжатия изображений A-усиленной A-усики.
Чтобы сделать хранение изображений более эффективным, команда Disney наконец-то запустила эту новую технологию после долгосрочного разведки. Они обучались на наборе данных VimeO-90K и протестировали на нескольких наборах данных, и результаты показали, что метод был лучше, чем предыдущие методы на нескольких показателях качества изображения. В конечном счете, исследователи также подтвердили превосходство своего метода в практических приложениях посредством исследований пользователей.
Документ: https://studios.disneyresearch.com/app/uploads/2024/09/lossy-image-compression-with-foundation-diffusion-models-suplementary-1.pdf
Ключевые моменты:
1. Новая технология сжатия изображений Disney может генерировать более реалистичные изображения в нижних битратах.
2. Этот метод отлично выполняет детальные затраты на восстановление и обучение без дополнительной точной настройки.
3. Хотя эффект является значительным, детали, которые не соответствуют исходному изображению, могут быть сгенерированы, и существует риск «иллюзии».
Хотя технология сжатия изображений Disney в области ИИ по-прежнему имеет такие проблемы, как «иллюзия», ее способность генерировать высокореалистичные изображения с низкой скоростью бита и эффективные затраты на обучение показала свой огромный потенциал. В будущем, поскольку технология продолжает развиваться, эта технология будет играть важную роль в области хранения и передачи изображений.