Downcodes의 편집자는 Disney 연구팀이 Stable Diffusion V1.2 모델을 기반으로 한 새로운 이미지 압축 방법을 출시했다는 사실을 알게 되었습니다. 이 방법은 낮은 비트 전송률에서 높은 사실감의 이미지를 생성할 수 있으며 그 성능은 기존 JPEG 및 AV1 코덱을 능가합니다. 디코더. "코덱"이라고 불리는 이 획기적인 기술은 확산 모델의 노이즈 제거 프로세스를 교묘하게 활용하여 이미지 압축의 양자화 오류를 노이즈로 처리하여 효율적인 이미지 재구성을 가능하게 합니다. 이 방법은 모델을 추가로 미세 조정할 필요가 없고 교육 비용을 크게 줄이며 여러 데이터 세트 테스트에서 잘 수행됩니다.
이 연구는 새로운 방법이 이미지 세부 정보를 복원하는 데 더 나은 성능을 발휘하고 필요한 훈련 비용도 크게 절감된다는 것을 보여줍니다. 연구원들은 양자화 오류(이미지 압축의 핵심 프로세스)가 노이즈(확산 모델의 핵심 프로세스)와 매우 유사하여 전통적으로 양자화된 이미지가 원본 이미지의 노이즈 버전으로 간주될 수 있다는 사실을 발견했습니다. 이 과정에서 확산 모델의 노이즈 제거 과정을 사용하여 목표 비트 전송률로 영상을 재구성합니다.
일련의 테스트에서 Disney의 새로운 접근 방식은 정확성과 세부 복구 측면에서 이전 이미지 압축 기술을 능가했습니다. 연구원들은 그들의 방법이 확산 모델의 추가적인 미세 조정을 필요로 하지 않으며 기존 기본 모델을 효과적으로 사용할 수 있다고 말합니다. 이 새로운 코덱의 장점은 사실적인 재구성 성능이 뛰어나다는 것입니다. 그러나 어떤 경우에는 환각 현상이 나타날 수 있습니다. 즉, 생성된 이미지에는 원본 이미지 세부 사항에는 없었던 아티팩트가 나타날 수 있습니다.
이 압축 방법은 예술 작품과 일반 사진의 렌더링에 일정한 영향을 미치지만 법의학 증거, 안면 인식 데이터, OCR(광학 문자 인식) 스캐닝과 같이 세부 사항이 중요한 일부 응용 시나리오에서는 환각 가능성이 있습니다. 위험이 더욱 중요해집니다. 현재 이 기술은 아직 초기 단계이지만, AI가 강화된 영상 압축 기술이 발전하면서 이 분야의 과제도 점차 대두될 것입니다.
이미지 저장을 보다 효율적으로 만들기 위해 디즈니 팀은 오랜 연구 끝에 마침내 이 새로운 기술을 출시했습니다. 그들은 Vimeo-90k 데이터세트로 훈련하고 여러 데이터세트에서 테스트한 결과 여러 이미지 품질 지표에서 이 방법이 이전 방법보다 뛰어난 것으로 나타났습니다. 마지막으로 연구진은 사용자 연구를 통해 실제 적용에서도 이들 방법의 우수성을 확인했다.
논문: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-보충-1.pdf
Stable Diffusion을 기반으로 한 Disney의 이미지 압축 기술은 이미지 처리 분야에서 AI의 엄청난 잠재력을 보여줍니다. 비록 환상과 같은 과제가 있지만 이미지 품질과 효율성의 향상은 상당합니다. 앞으로도 이 기술은 기술이 지속적으로 발전함에 따라 더 많은 분야에 적용되어 영상 저장 및 전송에 획기적인 변화를 가져올 것으로 예상됩니다. 후속 연구를 통해 착시 문제를 더욱 해결하고, 좀 더 디테일이 요구되는 장면에서 유용하게 활용될 수 있을 것으로 기대된다.