Pesquisadores da Universidade Sun Yat-sen e outros pesquisadores propuseram um novo método chamado ScaleLong para resolver o problema de estabilidade durante o treinamento do modelo de difusão. Este método alivia efetivamente a instabilidade dos recursos e aumenta a robustez do modelo para perturbações de entrada, realizando operações de escalonamento na conexão de salto longo da UNet. Os pesquisadores propuseram dois métodos específicos de ajuste de coeficiente de escala: Método Learnable Scaling (LS) e Método Constant Scaling (CS), e analisaram visualmente o papel dos recursos e parâmetros no processo de treinamento do modelo, bem como o efeito do coeficiente de escala no magnitude do gradiente e o impacto da estabilidade da perturbação de entrada. Esta pesquisa fornece novas ideias para melhorar a estabilidade do treinamento e a robustez dos modelos de difusão.
O artigo se concentra em:
Pesquisadores da Universidade Sun Yat-sen e outros pesquisadores propuseram o modelo de difusão ScaleLong e apontaram que as operações de escalonamento na conexão de salto longo da UNet podem estabilizar o treinamento do modelo. A pesquisa descobriu que definir razoavelmente o coeficiente de escala pode aliviar a instabilidade dos recursos e melhorar a robustez do modelo para perturbações de entrada. Eles propuseram o método Learnable Scaling (LS) e o método Constant Scaling (CS), por meio dos quais os coeficientes de escala podem ser ajustados de forma adaptativa para estabilizar ainda mais o treinamento do modelo. Recursos e parâmetros visuais desempenham um papel importante no processo de treinamento do modelo, enquanto o coeficiente de escala afeta a magnitude do gradiente e a estabilidade das perturbações de entrada.
O modelo ScaleLong melhora efetivamente a estabilidade e robustez do treinamento do modelo de difusão, melhorando a conexão de salto longo da UNet e combinando os métodos Learnable Scaling e Constant Scaling, e fornece suporte técnico importante para a aplicação de modelos de difusão. Pesquisas futuras podem explorar melhores estratégias de escalonamento para melhorar ainda mais o desempenho do modelo.