A equipe de pesquisa da Disney usou o modelo de difusão estável v1.2 para desenvolver um novo método de compactação de imagem e alcançou uma geração de imagens mais realista à baixa taxa de bits. Chamado de "codec" e seu desempenho supera os codecs tradicionais JPEG e AV1, com excelentes custos de recuperação e treinamento de detalhes de imagem. Este estudo correlaciona de maneira inteligente erros de quantização com ruído no modelo de difusão, reconstrói imagens usando o processo de denoising e testes e os valida em vários conjuntos de dados.
O estudo mostra que o novo método tem um desempenho melhor na recuperação dos detalhes da imagem, enquanto os custos de treinamento necessários são bastante reduzidos. Os pesquisadores descobriram que o erro de quantização (o processo principal na compressão da imagem) é muito semelhante ao ruído (o processo principal no modelo de difusão), portanto, as imagens quantizadas tradicionais podem ser consideradas como uma versão barulhenta da imagem original. Nesse processo, o processo de denoising do modelo de difusão é usado para reconstruir a imagem na taxa de bits de destino.
Em uma série de testes, a nova abordagem da Disney superou as técnicas anteriores de compressão de imagem na precisão e na recuperação de detalhes. Os pesquisadores disseram que sua abordagem não requer ajuste fino adicional do modelo de difusão e pode efetivamente usar modelos básicos existentes. A vantagem deste novo codec é que ele tem um bom desempenho na reconstrução do sentido da realidade, embora em alguns casos possa experimentar alucinações, ou seja, pode aparecer na imagem gerada e não existe na imagem original.
Embora esse método de compactação tenha um certo impacto na apresentação de obras de arte e fotos comuns, em alguns cenários de aplicação relacionados a detalhes, como evidências judiciais, dados de reconhecimento facial e varredura de reconhecimento de caracteres ópticos (OCR), o potencial dos fenômenos de alucinação. O risco é mais importante. Atualmente, embora essa tecnologia ainda esteja em seus estágios iniciais, os desafios nesse campo surgirão gradualmente com o desenvolvimento da tecnologia de compressão de imagem aprimorada pela AII.
Para tornar o armazenamento de imagens mais eficiente, a equipe da Disney finalmente lançou essa nova tecnologia após a exploração de longo prazo. Eles treinaram no conjunto de dados do Vimeo-90K e testaram em vários conjuntos de dados, e os resultados mostraram que o método era melhor do que os métodos anteriores em métricas de qualidade de imagem múltipla. Por fim, os pesquisadores também confirmaram a superioridade de seu método em aplicações práticas por meio da pesquisa de usuários.
Papel: https://studios.disneyresearch.com/app/uploads/2024/09/lossy-image-compression-with-tingation-diffusion-models-supplementary-1.pdf
Pontos -chave:
1. A nova tecnologia de compressão de imagem da AI da Disney pode gerar imagens mais realistas em taxas de bits mais baixas.
2. Este método tem um desempenho excelentemente em detalhes de recuperação e treinamento sem ajustes adicionais.
3. Embora o efeito seja significativo, detalhes que não correspondem à imagem original podem ser gerados e há um risco de "ilusão".
Embora a tecnologia de compressão de imagem da Disney ainda tenha problemas como "ilusão", sua capacidade de gerar imagens reais altas a baixa taxa de bits e custos de treinamento eficiente mostraram seu enorme potencial. No futuro, à medida que a tecnologia continua a amadurecer, essa tecnologia desempenhará um papel importante no campo do armazenamento e transmissão de imagens.