O editor do Downcodes soube que a equipe de pesquisa da Disney lançou um novo método de compactação de imagem baseado no modelo Stable Diffusion V1.2. Este método pode gerar imagens de alto realismo em baixas taxas de bits e seu desempenho supera os codecs JPEG e AV1 existentes. decodificador. Esta tecnologia inovadora, chamada de “codec”, utiliza inteligentemente o processo de eliminação de ruído do modelo de difusão para tratar erros de quantização na compressão de imagem como ruído, permitindo uma reconstrução eficiente da imagem. Este método não requer ajuste adicional do modelo, reduz bastante os custos de treinamento e tem um bom desempenho em testes de vários conjuntos de dados.
Este estudo mostra que o novo método tem melhor desempenho na restauração de detalhes da imagem e o custo de treinamento necessário também é bastante reduzido. Os pesquisadores descobriram que o erro de quantização (um processo central na compressão de imagens) é tão semelhante ao ruído (um processo central nos modelos de difusão) que uma imagem tradicionalmente quantizada pode ser considerada uma versão ruidosa da imagem original. Neste processo, o processo de eliminação de ruído do modelo de difusão é usado para reconstruir a imagem na taxa de bits alvo.
Em uma série de testes, a nova abordagem da Disney superou as técnicas anteriores de compressão de imagem tanto em precisão quanto em recuperação de detalhes. Os pesquisadores dizem que seu método não requer ajuste adicional do modelo de difusão e pode usar efetivamente os modelos básicos existentes. A vantagem deste novo codec reside no seu excelente desempenho na reconstrução fotorrealística, embora em alguns casos possa sofrer de alucinações, ou seja, podem aparecer artefatos na imagem gerada que não estavam presentes na imagem original.
Embora este método de compressão tenha um certo impacto na renderização de obras de arte e fotos comuns, em alguns cenários de aplicação onde os detalhes são importantes, como evidências forenses, dados de reconhecimento facial e digitalização de reconhecimento óptico de caracteres (OCR), o potencial para alucinações O risco se torna mais importante. Atualmente, embora esta tecnologia ainda esteja na sua infância, com o desenvolvimento da tecnologia de compressão de imagem melhorada por IA, surgirão gradualmente desafios neste campo.
Para tornar o armazenamento de imagens mais eficiente, a equipe da Disney finalmente lançou esta nova tecnologia após uma exploração de longo prazo. Eles treinaram no conjunto de dados Vimeo-90k e testaram em vários conjuntos de dados, e os resultados mostraram que o método superou os métodos anteriores em várias métricas de qualidade de imagem. Finalmente, os pesquisadores também confirmaram a superioridade do seu método em aplicações práticas através de pesquisas com usuários.
Artigo: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf
A tecnologia de compressão de imagem da Disney baseada em Difusão Estável demonstra o enorme potencial da IA no campo do processamento de imagens. Embora existam desafios como a ilusão, sua melhoria na qualidade e eficiência da imagem é significativa. No futuro, com a melhoria contínua da tecnologia, espera-se que esta tecnologia seja aplicada em mais campos, trazendo mudanças revolucionárias no armazenamento e transmissão de imagens. Espera-se que pesquisas subsequentes possam resolver ainda mais o problema da ilusão e torná-la útil em cenas que exigem mais detalhes.