Este trabalho utiliza modelos de difusão para implementar técnicas de preenchimento generativo, como desmascaramento de imagem, pintura interna, expansão e diversas técnicas de preenchimento generativo.
Pintura de imagem (imagem original, imagem mascarada, imagem reconstruída)
DDPM gerado (treinado e gerado usando conjunto de dados Landscape).
LDM gerado (treinado em COCO e gerado usando conjunto de dados de paisagem).
Amostragem com COCO
Mais imagens geradas podem ser encontradas nos resultados
Confira minha implementação do DDPM.
Este repositório inclui preenchimento generativo usando DDPM. Para fazer o mesmo usando LDM, verifique meu repositório LDM aqui. A pasta ldm-genfill neste repositório contém apenas os arquivos de configuração do modelo para realizar o preenchimento generativo usando modelos ldm. Portanto, use a implementação em meu repositório LDM com arquivos de configuração neste repositório. Demonstração e outras instruções para todos os condicionamentos LDM estão disponíveis no repositório LDM.
As regiões atualmente desmascaradas do DDPM parecem mais relevantes contextualmente em comparação com o LDM, pois o DDPM funciona diretamente nas imagens. Usar o condicionamento de texto e classe para dar suporte ao GenFill melhora ligeiramente a capacidade de preenchimento contextual e o treinamento adicional também pode melhorar. Pode haver planos para fazer melhorias posteriormente.
Atualizações recentes