Редактор Downcodes узнал, что исследовательская группа Disney выпустила новый метод сжатия изображений, основанный на модели Stable Diffusion V1.2. Этот метод позволяет генерировать изображения высокой реалистичности при низкой скорости передачи данных, а его производительность превосходит существующие кодеки JPEG и AV1. декодер. Эта революционная технология, называемая «кодеком», умело использует процесс шумоподавления диффузионной модели для обработки ошибок квантования при сжатии изображения как шума, что позволяет эффективно реконструировать изображение. Этот метод не требует дополнительной тонкой настройки модели, значительно снижает затраты на обучение и хорошо работает при тестировании нескольких наборов данных.
Это исследование показывает, что новый метод лучше восстанавливает детали изображения, а необходимые затраты на обучение также значительно снижаются. Исследователи обнаружили, что ошибка квантования (основной процесс сжатия изображений) настолько похожа на шум (основной процесс диффузионных моделей), что традиционно квантованное изображение можно рассматривать как зашумленную версию исходного изображения. В этом процессе процесс шумоподавления модели диффузии используется для восстановления изображения с целевой скоростью передачи данных.
В серии тестов новый подход Disney превзошел предыдущие методы сжатия изображений как по точности, так и по восстановлению деталей. Исследователи утверждают, что их метод не требует дополнительной тонкой настройки диффузионной модели и может эффективно использовать существующие базовые модели. Преимущество этого нового кодека заключается в его превосходной производительности при фотореалистичной реконструкции, хотя в некоторых случаях он может страдать от галлюцинаций, то есть в сгенерированном изображении могут появляться артефакты, которых не было в деталях исходного изображения.
Хотя этот метод сжатия оказывает определенное влияние на рендеринг произведений искусства и обычных фотографий, в некоторых сценариях применения, где важны детали, таких как судебно-медицинские доказательства, данные распознавания лиц и сканирование оптического распознавания символов (OCR), существует вероятность возникновения галлюцинаций. Риск становится более важным. В настоящее время, хотя эта технология все еще находится в зачаточном состоянии, с развитием технологии сжатия изображений с использованием искусственного интеллекта постепенно будут возникать проблемы в этой области.
Чтобы сделать хранение изображений более эффективным, команда Disney после долгих исследований наконец запустила эту новую технологию. Они обучались на наборе данных Vimeo-90k и тестировали несколько наборов данных, и результаты показали, что метод превзошел предыдущие методы по множеству показателей качества изображения. Наконец, исследователи также подтвердили превосходство своего метода в практическом применении посредством исследования пользователей.
Документ: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf.
Технология сжатия изображений Disney, основанная на Stable Diffusion, демонстрирует огромный потенциал искусственного интеллекта в области обработки изображений. Хотя существуют такие проблемы, как иллюзия, улучшение качества и эффективности изображения является значительным. Ожидается, что в будущем, благодаря постоянному совершенствованию технологий, эта технология будет применяться во многих областях, что приведет к революционным изменениям в хранении и передаче изображений. Ожидается, что последующие исследования помогут решить проблему иллюзий и сделать ее полезной в сценах, требующих детализации.