La investigación del Laboratorio Tongyi de Alibaba ha traído un avance avanzado a la capacidad de generación de imágenes de los modelos gráficos literarios y biográficos. Descubrieron que el modelo de transformador de difusión existente puede generar conjuntos de múltiples imágenes con relaciones específicas con solo una pequeña cantidad de orientación, lo que subvierte la cognición de que los modelos de difusión tradicionales requieren capacitación masiva en datos para generar imágenes de alta calidad. El núcleo de este estudio es la tecnología IC-Lora, que activa efectivamente la capacidad de "aprendizaje de contexto" del modelo, lo que permite que el modelo comprenda la asociación entre las imágenes y genera una secuencia de imágenes con consistencia lógica. Esta tecnología no solo mejora la eficiencia y la calidad de la generación de imágenes, sino que también reduce el costo de la capacitación del modelo, lo que aporta cambios revolucionarios al campo de la generación de imágenes de IA.
El modelo de difusión tradicional es como un estudiante de memoria, e IC-Lora le da la capacidad de aprender unos de otros. Al empalmar hábilmente múltiples imágenes en una imagen grande y combinar texto para describirlo en un accesorio largo, los investigadores permiten al modelo procesar la información de múltiples imágenes al mismo tiempo y comprender la relación entre las imágenes. Al mismo tiempo, el ajuste fino se lleva a cabo a través de un pequeño número de colecciones de imágenes de alta calidad, se conserva el conocimiento original y la capacidad de aprendizaje de contexto del modelo. El artículo enumera múltiples casos experimentales, que muestra vívidamente los efectos de la aplicación de IC-lora en diferentes escenarios, como generar imágenes de estilo cómico, generar imágenes de diferentes expresiones o escenas basadas en imágenes existentes, etc. La aparición de IC-Lora ha reducido el costo de capacitación de los modelos de IA y ha permitido que más personas participen en la creación de IA. Dirección del proyecto: https://ali-vilab.github.io/in-context-lora-page/
El progreso innovador de la tecnología IC-Lora ha traído nuevas posibilidades al campo de la generación de imágenes de IA. En el futuro, con la madurez continua y la mejora de la tecnología, podemos esperar aplicaciones más innovadoras basadas en IC-Lora y la aplicación más amplia de IA en el campo de la creación artística.