Disney Research 팀은 안정적인 확산 v1.2 모델을 사용하여 새로운 이미지 압축 방법을 개발하고 낮은 비트 속도로보다 현실적인 이미지 생성을 달성했습니다. "코덱"이라고 불리는 성능은 전통적인 JPEG 및 AV1 코덱을 능가하여 이미지 세부 회복 및 훈련 비용을 잘 수행합니다. 이 연구는 확산 모델에서 노이즈와 양자화 오차를 영리하게 상관시키고, 데노이징 프로세스를 사용하여 이미지를 재구성하고, 여러 데이터 세트에서 테스트하고 검증합니다.
이 연구는 새로운 방법이 이미지 세부 사항의 복구에서 더 잘 수행되는 반면 필요한 교육 비용은 크게 줄어 듭니다. 연구원들은 양자화 오차 (이미지 압축의 핵심 프로세스)가 노이즈 (확산 모델의 핵심 프로세스)와 매우 유사하므로 전통적인 양자화 된 이미지는 원본 이미지의 시끄러운 버전으로 간주 될 수 있음을 발견했습니다. 이 프로세스에서, 확산 모델의 데노이징 프로세스는 대상 비트 속도로 이미지를 재구성하는 데 사용됩니다.
일련의 테스트에서 Disney의 새로운 접근 방식은 정확도와 세부 회복 모두에서 이전 이미지 압축 기술을 능가했습니다. 연구원들은 그들의 접근 방식이 확산 모델의 추가 미세 조정이 필요하지 않으며 기존 기본 모델을 효과적으로 사용할 수 있다고 말했다. 이 새로운 코덱의 장점은 현실감의 재구성에서 잘 수행되지만, 어떤 경우에는 환각을 경험할 수 있습니다. 즉, 생성 된 이미지에 나타날 수 있으며 원래 이미지에는 존재하지 않습니다.
이 압축 방법은 예술 작품 및 일반 사진의 프레젠테이션에 영향을 미치지 만, 법원 증거, 얼굴 인식 데이터 및 OCR (Optical Character Recognition)과 같은 세부 사항과 관련된 일부 애플리케이션 시나리오에서 환각 현상의 잠재력. 위험이 더 중요합니다. 현재이 기술은 여전히 초기 단계에 있지만 AI-Enhanced 이미지 압축 기술의 개발로 인해이 분야의 과제가 점차 등장 할 것입니다.
디즈니 팀은 이미지 저장소를보다 효율적으로 만들기 위해 장기적인 탐사 후 마침내이 새로운 기술을 출시했습니다. 그들은 Vimeo-90K 데이터 세트에 대해 교육을 받았으며 여러 데이터 세트에서 테스트했으며 결과는 여러 이미지 품질 메트릭에서 이전 방법보다 더 우수하다는 것을 보여주었습니다. 궁극적으로 연구원들은 사용자 연구를 통해 실제 응용 분야에서 방법의 우수성을 확인했습니다.
종이 : https://studios.disneyresearch.com/app/uploads/2024/09/lossy-image-compression-with-foundation-diffusion-models-supplementary-1.pdf
핵심 사항 :
1. Disney의 새로운 AI 이미지 압축 기술은 낮은 비트 전송률에서보다 현실적인 이미지를 생성 할 수 있습니다.
2.이 방법은 추가 미세 조정없이 회복 및 훈련 비용을 상세하게 수행합니다.
3. 효과는 중요하지만 원래 이미지와 일치하지 않는 세부 사항이 생성 될 수 있으며 "환상"의 위험이 있습니다.
Disney의 AI 이미지 압축 기술은 여전히 "Illusion"과 같은 문제가 있지만, 비트 속도가 낮고 효율적인 교육 비용으로 높은 현실적인 이미지를 생성하는 능력은 모두 큰 잠재력을 보여주었습니다. 앞으로 기술이 계속 성숙함에 따라이 기술은 이미지 저장 및 전송 분야에서 중요한 역할을 할 것입니다.