Investigadores de la Universidad Sun Yat-sen y otros investigadores propusieron un nuevo método llamado ScaleLong para abordar el problema de la estabilidad durante el entrenamiento del modelo de difusión. Este método alivia eficazmente la inestabilidad de las características y mejora la solidez del modelo ante las perturbaciones de entrada mediante la realización de operaciones de escala en la conexión de salto largo de UNet. Los investigadores propusieron dos métodos de ajuste de coeficientes de escala específicos: el método de escalamiento aprendible (LS) y el método de escalado constante (CS), y analizaron visualmente el papel de las características y parámetros en el proceso de entrenamiento del modelo, así como el efecto del coeficiente de escala en el magnitud del gradiente y el impacto de la estabilidad de la perturbación de entrada. Esta investigación proporciona nuevas ideas para mejorar la estabilidad del entrenamiento y la robustez de los modelos de difusión.
El artículo se centra en:
Investigadores de la Universidad Sun Yat-sen y otros investigadores propusieron el modelo de difusión ScaleLong y señalaron que las operaciones de escala en la conexión de salto largo de UNet pueden estabilizar el entrenamiento del modelo. Las investigaciones han descubierto que establecer razonablemente el coeficiente de escala puede aliviar la inestabilidad de las características y mejorar la solidez del modelo ante las perturbaciones de entrada. Propusieron el método de escalamiento aprendible (LS) y el método de escalamiento constante (CS), mediante los cuales los coeficientes de escala se pueden ajustar de forma adaptativa para estabilizar aún más el entrenamiento del modelo. Las características y parámetros visuales juegan un papel importante en el proceso de entrenamiento del modelo, mientras que el coeficiente de escala afecta la magnitud del gradiente y la estabilidad de las perturbaciones de entrada.
El modelo ScaleLong mejora efectivamente la estabilidad y solidez del entrenamiento del modelo de difusión al mejorar la conexión de salto largo de UNet y combinar los métodos de escalado aprendible y escalado constante, y proporciona un importante soporte técnico para la aplicación de modelos de difusión. Las investigaciones futuras pueden explorar más a fondo mejores estrategias de escalamiento para mejorar aún más el rendimiento del modelo.