Una colección de estudios de generación de texto a imagen
Este repositorio de GitHub resume artículos y recursos relacionados con la tarea de generación de texto a imagen (T2I).
Nota
Este documento sirve como homepage
de todo el repositorio de GitHub. Los artículos se resumen según diferentes direcciones de investigación, años de publicación y conferencias.
La sección topics
resume artículos que están altamente relacionados con la generación de T2I según diferentes propiedades, por ejemplo, requisitos previos de la generación de T2I, modelos de difusión con otras técnicas (por ejemplo, transformador de difusión, LLM, Mamba, etc.) y modelos de difusión para otras tareas.
Si tiene alguna sugerencia sobre este repositorio, no dude en iniciar una nueva edición o realizar solicitudes de extracción.
Las noticias recientes de este repositorio de GitHub se enumeran a continuación.
[Nov. 19] Hemos publicado nuestro último artículo titulado "StableV2V: Estabilización de la consistencia de la forma en la edición de video a video", con el código correspondiente, pesos de modelo y un punto de referencia de prueba DAVIS-Edit
de código abierto. ¡No dudes en consultarlos desde los enlaces!
Haga clic para ver más información.
- [Abr. 26] Actualice un tema nuevo: Los modelos de difusión se encuentran con el aprendizaje federado. ¡Consulta la sección
topics
para obtener más detalles! - [Mar. 28] ¡Se publica la lista oficial de artículos AAAI 2024 ! La versión oficial de los archivos PDF y las referencias de BibTeX se actualizan en consecuencia.
- [Mar. 21] La sección
topics
ha sido actualizada. Esta sección tiene como objetivo ofrecer listas de artículos que se resumen de acuerdo con otras propiedades de los modelos de difusión , por ejemplo, métodos basados en transformadores de difusión, modelos de difusión para PNL, modelos de difusión integrados con LLM, etc. Las referencias correspondientes de estos artículos también se concluyen en reference.bib
. - [Mar. 7.º] Se actualizan todos los artículos y referencias de CVPR, ICLR y AAAI 2024 disponibles.
- [Mar. 1º] Se resumen los sitios web de productos y kits de herramientas de generación de texto a imagen disponibles en el mercado .
Contenido
- Productos
- Listas de tareas pendientes
- Papeles
- Documentos de encuesta
- Generación de texto a imagen
- Año 2024
- Año 2023
- Año 2022
- Año 2021
- Año 2020
- Generación condicional de texto a imagen
- Año 2024
- Año 2023
- Año 2022
- Generación personalizada de texto a imagen
- Edición de imágenes guiada por texto
- Año 2024
- Año 2023
- Año 2022
- Generación de imágenes de texto
- Conjuntos de datos
- Cajas de herramientas
- Preguntas y respuestas
- Referencias
- Historia de las estrellas
Listas de tareas pendientes
- Artículos publicados sobre conferencias
- Mantenimiento regular de documentos preimpresos de arXiv y documentos perdidos
<Volver al inicio>
Productos
Nombre | Año | Sitio web | Especialidades |
---|
Difusión estable 3 | 2024 | enlace | Difusión estable basada en transformador |
Vídeo estable | 2024 | enlace | Imágenes de alta resolución y alta calidad. |
DALL-E 3 | 2023 | enlace | Colabora con ChatGPT |
Ideograma | 2023 | enlace | Imágenes de texto |
Patio de juegos | 2023 | enlace | Imágenes atesticas |
HolaDream.ai | 2023 | enlace | - |
Dashtoon | 2023 | enlace | Generación de texto a cómic |
RUEDA | 2023 | enlace | WHEE es una herramienta de generación de IA en línea, que se puede aplicar para generación T2I, generación I2I, SR, pintura interior, pintura exterior, variación de imágenes, prueba virtual, etc. |
Vega IA | 2023 | enlace | Vega AI es una herramienta de generación de IA en línea, que se puede aplicar para generación T2I, generación I2I, SR, generación T2V, generación I2V, etc. |
Wujie AI | 2022 | enlace | El nombre chino es "无界AI", y ofrece recursos y servicios en línea de AIGC. |
A mitad del viaje | 2022 | enlace | Potente herramienta de generación de fuentes cercanas |
<Volver al inicio>
Papeles
Documentos de encuesta
- Generación de texto a imagen
- Año 2024
- Encuestas de Computación ACM
- Modelos de difusión: un estudio completo de métodos y aplicaciones [artículo]
- Año 2023
- TPAMI
- Modelos de difusión en visión: una encuesta [artículo] [Código]
- arXiv
- Modelos de difusión de texto a imagen en IA generativa: una encuesta [artículo]
- Estado del arte sobre modelos de difusión para computación visual [artículo]
- Año 2022
- arXiv
- Modelos de difusión eficiente para la visión: una encuesta [artículo]
- Generación condicional de texto a imagen
- Año 2024
- arXiv
- Generación controlable con modelos de difusión de texto a imagen: una encuesta [artículo]
- Edición de imágenes guiada por texto
- Año 2024
- arXiv
- Edición de imágenes basada en modelos de difusión: una encuesta [artículo] [código]
<Volver al inicio>
Generación de texto a imagen
- Año 2024
- CVPR
- DistriFusion: Inferencia paralela distribuida para modelos de difusión de alta resolución [artículo] [Código]
- InstanceDiffusion: Control a nivel de instancia para la generación de imágenes [Papel] [Código] [Proyecto]
- ECLIPSE: una versión anterior de conversión de texto a imagen que utiliza recursos eficientemente para generaciones de imágenes [artículo] [código] [proyecto] [demostración]
- Instruct-Imagen: Generación de imágenes con instrucción multimodal [artículo]
- Aprendizaje continuo de palabras en 3D para la generación de texto a imagen [Papel] [Código]
- HanDiffuser: generación de texto a imagen con apariencias de manos realistas [artículo]
- Comentarios humanos enriquecidos para la generación de texto a imagen [artículo]
- MarkovGen: Predicción estructurada para una generación eficiente de texto a imagen [artículo]
- Asistente de personalización para generación de texto a imagen [Papel]
- ADI: Aprendizaje de identificadores desenredados para la generación de texto a imagen personalizada para acciones [artículo] [Proyecto]
- UFOGen: Reenvía una vez la generación de texto a imagen a gran escala a través de GAN de difusión [artículo]
- Direcciones latentes de difusión interpretables por autodescubrimiento para la generación responsable de texto a imagen [artículo]
- Visiones personalizadas: mejora de la generación de texto a imagen con reescritura de indicaciones personalizadas [artículo] [código]
- CoDi: Destilación por difusión condicional para una generación de imágenes más rápida y de mayor fidelidad [artículo] [Código] [Proyecto] [Demostración]
- Generación de imágenes a escala arbitraria y muestreo superior mediante un modelo de difusión latente y un decodificador neuronal implícito [artículo]
- Hacia un uso eficaz de prioridades centradas en el ser humano en modelos de difusión para la generación de imágenes humanas basadas en texto [artículo]
- ElasticDiffusion: Generación de imágenes de tamaño arbitrario sin capacitación [Documento] [Código] [Proyecto] [Demostración]
- CosmicMan: Un modelo básico de conversión de texto a imagen para humanos [artículo] [Código] [Proyecto]
- PanFusion: Domar la difusión estable para la generación de imágenes panorámicas de texto a 360° [Papel] [Código] [Proyecto]
- Grimm inteligente: narración visual abierta a través de modelos de difusión latente [artículo] [código] [proyecto]
- Sobre la escalabilidad de la generación de texto a imagen basada en difusión [artículo]
- MuLAn: un conjunto de datos anotado de múltiples capas para la generación controlable de texto a imagen [Documento] [Proyecto] [Conjunto de datos]
- Aprendizaje de la preferencia humana multidimensional por la generación de texto a imagen [artículo]
- Optimización dinámica de mensajes para la generación de texto a imagen [artículo]
- Entrenamiento de modelos de difusión para la generación de imágenes diversas con aprendizaje por refuerzo [artículo]
- Texto contradictorio a generación continua de imágenes [artículo] [proyecto] [vídeo]
- EmoGen: Generación de contenido de imágenes emocionales con modelos de difusión de texto a imagen [Artículo] [Código]
- ECV
- Uniendo diferentes modelos de lenguaje y modelos de visión generativa para la generación de texto a imagen [artículo] [Código] [Proyecto]
- Explorando la conexión a tierra a nivel de frase con el modelo de difusión de texto a imagen [artículo] [Código]
- Hacerlo bien: mejorar la coherencia espacial en los modelos de texto a imagen [artículo] [código] [proyecto]
- Navegando por el sesgo generativo de texto a imagen en idiomas índicos [artículo] [Proyecto]
- Proteja los modelos de difusión de texto a imagen con inversión de retroalimentación humana [artículo]
- La fabricación de la realidad y la fantasía: generación de escenas con interpretación rápida asistida por un LLM [artículo] [código] [proyecto] [conjunto de datos]
- Borrado de conceptos confiable y eficiente de modelos de difusión de texto a imagen [artículo] [código]
- Explorando la conexión a tierra a nivel de frase con el modelo de difusión de texto a imagen [artículo] [Código]
- StyleTokenizer: Definición del estilo de imagen mediante una instancia única para controlar modelos de difusión [Documento] [Código]
- PEA-Diffusion: Adaptador eficiente en parámetros con destilación de conocimientos en generación de texto a imagen en idiomas distintos del inglés [Documento] [Código]
- Los sesgos en el espacio del fenómeno obstaculizan la generalización en la generación de texto a imagen [artículo] [Código]
- Parrot: Marco de aprendizaje de refuerzo de recompensas múltiples óptimo de Pareto para la generación de texto a imagen [artículo]
- Uniendo diferentes modelos de lenguaje y modelos de visión generativa para la generación de texto a imagen [artículo] [Código] [Proyecto]
- MobileDiffusion: generación instantánea de texto a imagen en dispositivos móviles [artículo]
- PixArt-Σ: Entrenamiento de débil a fuerte de un transformador de difusión para la generación de texto a imagen 4K [Documento] [Código] [Proyecto]
- CogView3: Generación de texto a imagen más fina y rápida mediante difusión por retransmisión [Papel] [Código]
- ICLR
- Modelos de difusión de eliminación de ruido parcheados para síntesis de imágenes de alta resolución [artículo] [código]
- Difusión por retransmisión: unificación del proceso de difusión en distintas resoluciones para la síntesis de imágenes [Artículo] [Código]
- SDXL: Mejora de los modelos de difusión latente para la síntesis de imágenes de alta resolución [artículo] [código]
- Compose and Conquer: Síntesis de imágenes componibles con reconocimiento de profundidad 3D basada en difusión [artículo] [código]
- PixArt-α: Entrenamiento rápido de un transformador de difusión para síntesis fotorrealista de texto a imagen [artículo] [Código] [Proyecto] [Demostración]
- SÍGRAFO
- RGB↔X: Descomposición y síntesis de imágenes utilizando modelos de difusión que tienen en cuenta el material y la iluminación [artículo] [Proyecto]
- AAAI
- Aumento de datos con conciencia semántica para la síntesis de texto a imagen [artículo]
- Generación de texto a imagen para conceptos abstractos [artículo]
- arXiv
- Ajuste automático de modelos de difusión para la generación de texto a imagen [artículo]
- RPG: Dominar la difusión de texto a imagen: recaptación, planificación y generación con LLM multimodales [artículo] [código]
- Playground v2.5: Tres ideas para mejorar la calidad estética en la generación de texto a imagen [artículo] [Código]
- ResAdapter: Adaptador de resolución consistente de dominio para modelos de difusión [Documento] [Código] [Proyecto]
- InstantID: Generación de preservación de identidad Zero-shot en segundos [Documento] [Código] [Proyecto] [Demostración]
- PIXART-δ: Generación de imágenes rápida y controlable con modelos de consistencia latente [Artículo] [Código]
- ELLA: Equipar modelos de difusión con LLM para una alineación semántica mejorada [artículo] [Código] [Proyecto]
- Text2Street: Generación controlable de texto a imagen para Street Views [artículo]
- LayerDiffuse: Difusión de capas de imágenes transparentes utilizando transparencia latente [Papel] [Código]
- SD3-Turbo: Síntesis rápida de imágenes de alta resolución con destilación por difusión adversaria latente [artículo]
- StreamMultiDiffusion: generación interactiva en tiempo real con control semántico basado en regiones [artículo] [código]
- SVGDreamer: Generación de SVG guiada por texto con modelo de difusión [Documento] [Código] [Proyecto]
- PromptCharm: Generación de texto a imagen mediante indicaciones y refinamiento multimodales [artículo]
- YOSO: Solo toma muestras una vez: Domar la síntesis de texto a imagen en un solo paso mediante GAN de difusión autocooperativa [Documento] [Código]
- SingDiffusion: Abordar las singularidades en los puntos finales de los intervalos de tiempo en modelos de difusión [artículo] [Código]
- CoMat: Alineación del modelo de difusión de texto a imagen con la coincidencia de conceptos de imagen a texto [artículo] [Código] [Proyecto]
- StoryDiffusion: Autoatención consistente para la generación de imágenes y videos de largo alcance [Documento] [Código] [Proyecto] [Demostración]
- Adaptador facial para modelos de difusión previamente entrenados con identificación de grano fino y control de atributos [papel] [proyecto]
- LinFusion: 1 GPU, 1 minuto, imagen de 16K [Papel] [Código] [Proyecto] [Demostración]
- OmniGen: Generación de imágenes unificadas [Papel] [Código]
- CoMPaSS: Mejora de la comprensión espacial en modelos de difusión de texto a imagen [artículo] [Código]
- Otros
- Cascada estable [Blog] [Código]
<Volver al inicio>
- Año 2023
- CVPR
- GigaGAN: Ampliación de GAN para síntesis de texto a imagen [artículo] [Código reproducido] [Proyecto] [Video]
- ERNIE-ViLG 2.0: Mejora del modelo de difusión de texto a imagen con una combinación de expertos en eliminación de ruido mejorada por el conocimiento [artículo]
- Difusión desplazada para la generación de texto a imagen [Papel] [Código]
- GALIP: CLIP adversarios generativos para síntesis de texto a imagen [artículo] [Código]
- Difusión especializada: ajuste fino plug-and-play de modelos de difusión de texto a imagen con eficiencia de muestreo para aprender cualquier estilo invisible [artículo] [código]
- Hacia una evaluación humana verificable y reproducible para la generación de texto a imagen [artículo]
- RIATIG: Generación de texto a imagen adversa confiable e imperceptible con indicaciones naturales [Documento] [Código]
- ICCV
- DiffFit: Desbloqueo de la transferibilidad de modelos de gran difusión mediante un ajuste simple y eficiente de parámetros [artículo] [Código] [Demostración]
- NeurIPS
- ImageReward: Aprendizaje y evaluación de las preferencias humanas para la generación de texto a imagen [artículo] [Código]
- RAPHAEL : Generación de texto a imagen mediante una gran combinación de rutas de difusión [artículo] [Proyecto]
- Vinculación lingüística en modelos de difusión: mejora de la correspondencia de atributos mediante la alineación del mapa de atención [artículo] [código]
- DenseDiffusion: generación densa de texto a imagen con modulación de atención [artículo] [código]
- ICLR
- Guía de difusión estructurada sin capacitación para la síntesis compositiva de texto a imagen [artículo] [Código]
- ICML
- StyleGAN-T: Liberando el poder de las GAN para una síntesis rápida de texto a imagen a gran escala [artículo] [Código] [Proyecto] [Video]
- Muse: Generación de texto a imagen mediante transformadores generativos enmascarados [Artículo] [Código reproducido] [Proyecto]
- UniDiffusers: un transformador se adapta a todas las distribuciones en difusión multimodal a escala [artículo] [código]
- ACMMM
- Adaptador SUR: Mejora de los modelos de difusión de texto a imagen previamente entrenados con modelos de lenguaje grandes [artículo] [Código]
- ControlStyle: Generación de imágenes estilizadas basadas en texto utilizando antecedentes de difusión [artículo]
- SÍGRAFO
- Attend-and-Excite: Guía semántica basada en la atención para modelos de difusión de texto a imagen [artículo] [Código] [Proyecto] [Demostración]
- arXiv
- P+: Condicionamiento textual extendido en la generación de texto a imagen [artículo]
- SDXL-Turbo: Destilación por difusión adversaria [Artículo] [Código]
- Wuerstchen: una arquitectura eficiente para modelos de difusión de texto a imagen a gran escala [artículo] [código]
- StreamDiffusion: una solución a nivel de canalización para la generación interactiva en tiempo real [artículo] [Proyecto]
- ParaDiffusion: Generación de párrafo a imagen con modelo de difusión enriquecido con información [artículo] [Código]
- Otros
- DALL-E 3: Mejora de la generación de imágenes con mejores subtítulos [artículo]
<Volver al inicio>
- Año 2022
- CVPR
- Difusión estable: síntesis de imágenes de alta resolución con modelos de difusión latente [artículo] [Código] [Proyecto]
- Modelo de difusión cuantificada vectorial para síntesis de texto a imagen [artículo] [Código]
- DF-GAN: una base simple y eficaz para la síntesis de texto a imagen [artículo] [Código]
- LAFITE: Hacia una formación sin lenguaje para la generación de texto a imagen [artículo] [Código]
- Síntesis de texto a imagen basada en un transformador de decodificación conjunta guiado por objetos [artículo]
- StyleT2I: Hacia una síntesis de texto a imagen compositiva y de alta fidelidad [artículo] [Código]
- ECV
- Make-A-Scene: Generación de texto a imagen basada en escenas con antecedentes humanos [Documento] [Código] [Demostración]
- Trazado controlado de texto a generación de imágenes [artículo]
- Generación de imágenes enmascaradas mejorada con Token-Critic [artículo]
- VQGAN-CLIP: Generación y manipulación de imágenes de dominio abierto mediante lenguaje natural [Artículo] [Código]
- TISE: Bolsa de métricas para la evaluación de síntesis de texto a imagen [artículo] [Código]
- StoryDALL-E: Adaptación de transformadores de texto a imagen previamente entrenados para la continuación de la historia [Documento] [Código] [Demostración]
- NeurIPS
- CogView2: Generación de texto a imagen mejor y más rápida mediante transformadores jerárquicos [Documento] [Código]
- Imagen: Modelos fotorrealistas de difusión de texto a imagen con comprensión profunda del lenguaje [Artículo] [Código reproducido] [Proyecto] [ Imagen 2 ]
- ACMMM
- Adma-GAN: GAN aumentadas con memoria basada en atributos para la generación de texto a imagen [artículo] [Código]
- Generación de diseño de fondo y transferencia de conocimiento de objetos para la generación de texto a imagen [artículo]
- DSE-GAN: Red adversaria generativa de evolución semántica dinámica para la generación de texto a imagen [artículo]
- AtHom: Dos atenciones divergentes estimuladas por entrenamiento homomórfico en síntesis de texto a imagen [artículo]
- arXiv
- DALLE-2: Generación de imágenes condicionales de texto jerárquico con CLIP Latents [artículo]
- PITI: La formación previa es todo lo que necesita para la traducción de imagen a imagen [artículo] [Código]
<Volver al inicio>
- Año 2021
- ICCV
- DAE-GAN: GAN dinámica con reconocimiento de aspectos para síntesis de texto a imagen [Documento] [Código]
- NeurIPS
- CogView: Dominar la generación de texto a imagen a través de Transformers [Papel] [Código] [Demostración]
- UFC-BERT: Unificación de controles multimodales para la síntesis de imágenes condicionales [artículo]
- ICML
- DALLE-1: Generación de texto a imagen Zero-Shot [Papel] [Código reproducido]
- ACMMM
- GAN inverso consistente en ciclos para síntesis de texto a imagen [artículo]
- R-GAN: Explorando formas similares a las humanas para una síntesis razonable de texto a imagen a través de redes generativas adversarias [artículo]
<Volver al inicio>
- Año 2020
- ACMMM
- Síntesis de texto a imagen mediante diseño estético [artículo]
<Volver al inicio>
Generación condicional de texto a imagen
- Año 2024
- CVPR
- LUGAR: Fusión semántica de diseño adaptativo para síntesis de imágenes semánticas [artículo]
- Síntesis de imágenes estilizadas con reconocimiento de estructura de una sola vez [artículo]
- Síntesis fundamentada de texto a imagen con reenfoque de la atención [Documento] [Código] [Proyecto] [Demostración]
- Difusión latente de gruesa a fina para síntesis de imágenes de personas guiadas por poses [artículo] [Código]
- DetDiffusion: Sinergia de modelos generativos y perceptivos para mejorar la generación y percepción de datos [artículo]
- CAN: Red neuronal consciente de la condición para la generación controlada de imágenes [artículo]
- SceneDiffusion: mueva cualquier cosa con Scene Diffusion en capas [papel]
- Zero-Painter: Control de diseño sin capacitación para síntesis de texto a imagen [Papel] [Código]
- MIGC: Controlador de generación de instancias múltiples para síntesis de texto a imagen [Documento] [Código] [Proyecto]
- FreeControl: Control espacial sin entrenamiento de cualquier modelo de difusión de texto a imagen con cualquier condición [Documento] [Código] [Proyecto]
- ECV
- PreciseControl: Mejora de los modelos de difusión de texto a imagen con control de atributos detallado [Documento] [Código] [Proyecto]
- AnyControl: cree su obra de arte con un control versátil en la generación de texto a imagen [Papel] [Código]
- ICLR
- Avance de la síntesis de imágenes guiada por pose con modelos de difusión condicional progresiva [artículo] [Código]
- WACV
- Control de diseño sin capacitación con guía de atención cruzada [Documento] [Código] [Proyecto] [Demostración]
- AAAI
- SSMG: Modelo de difusión guiada de mapas espacial-semánticos para la generación de diseño a imagen de forma libre [artículo]
- Síntesis composicional de texto a imagen con control de mapa de atención de modelos de difusión [artículo] [Código]
- arXiv
- DEADiff: Un modelo eficiente de difusión de estilización con representaciones desenredadas [artículo]
- InstantStyle: almuerzo gratis para preservar el estilo en la generación de texto a imagen [artículo] [código] [proyecto]
- ControlNet++: Mejora de los controles condicionales con comentarios de coherencia eficiente [artículo] [Proyecto]
- Hunyuan-DiT: un potente transformador de difusión de resolución múltiple con un conocimiento chino detallado [artículo] [código] [proyecto]
- DialogGen: Sistema de diálogo interactivo multimodal para la generación de texto a imagen en múltiples turnos [Artículo] [Código] [Proyecto]
- ControlNeXt: Control potente y eficiente para la generación de imágenes y videos [Papel] [Código] [Proyecto]
- UniPortrait: un marco unificado para la personalización de imágenes individuales y multihumanas que preservan la identidad [Documento] [Código] [Proyecto] [Demostración]
- OmniControl: Control mínimo y universal para transformador de difusión [Papel] [Código] [Demo]
- UnZipLoRA: Separando contenido y estilo de una sola imagen [artículo] [Proyecto]
- CtrLoRA: un marco extensible y eficiente para la generación de imágenes controlable [artículo] [código]
- Generación de texto a imagen según la región mediante encuadernación rígida y refinamiento suave [papel] [código]
<Volver al inicio>
- Año 2023
- CVPR
- GLIGEN: Generación de texto a imagen basada en conjunto abierto [Documento] [Código] [Proyecto] [Demostración] [Video]
- Generación de imágenes autorregresivas mediante cuantificación residual [Papel] [Código]
- SpaText: Representación espacio-textual para la generación de imágenes controlable [artículo] [Proyecto] [Vídeo]
- Generación de texto a imagen con GAN con reconocimiento semántico-espacial [artículo]
- ReCo: Generación de texto a imagen controlada por región [Papel] [Código]
- LayoutDiffusion: Modelo de difusión controlable para generación de diseño a imagen [Papel] [Código]
- ICCV
- ControlNet: Agregar control condicional a los modelos de difusión de texto a imagen [artículo] [Código]
- SceneGenie: Modelos de difusión guiada por gráficos de escenas para síntesis de imágenes [artículo] [Código]
- ZestGuide: Acondicionamiento de diseño espacial de disparo cero para modelos de difusión de texto a imagen [artículo]
- ICML
- Compositor: Síntesis de imágenes creativas y controlables con condiciones componibles [Artículo] [Código] [Proyecto]
- MultiDiffusion: fusión de rutas de difusión para la generación controlada de imágenes [Papel] [Código] [Video] [Proyecto] [Demostración]
- SÍGRAFO
- Modelos de difusión de texto a imagen guiados por bocetos [Papel] [Código reproducido] [Proyecto]
- NeurIPS
- Uni-ControlNet: Control todo en uno para modelos de difusión de texto a imagen [Documento] [Código] [Proyecto]
- Difusión rápida: aprendizaje en contexto desbloqueado para modelos de difusión [artículo] [código] [proyecto]
- WACV
- ¡Más control gratis! Síntesis de imágenes con guía de difusión semántica [artículo]
- ACMMM
- LayoutLLM-T2I: Obtención de orientación sobre diseño de LLM para la generación de texto a imagen [artículo]
- arXiv
- T2I-Adapter: Adaptadores de aprendizaje para descubrir capacidades más controlables para modelos de difusión de texto a imagen [Documento] [Código] [Demostración]
- BLIP-Diffusion: representación de sujetos previamente entrenados para la generación y edición controlables de texto a imagen [artículo] [código]
- Guía de difusión con restricción tardía para la síntesis de imágenes controlable [artículo] [Código]
- Año 2022
- ICLR
- SDEdit: Síntesis y edición de imágenes guiadas con ecuaciones diferenciales estocásticas [Artículo] [Código] [Proyecto]
<Volver al inicio>
Generación personalizada de texto a imagen
- Año 2024
- CVPR
- Inicialización cruzada para la generación personalizada de texto a imagen [artículo]
- Cuando StyleGAN se encuentra con la difusión estable: un adaptador W+ para la generación de imágenes personalizadas [Documento] [Código] [Proyecto]
- Generación de imágenes alineadas con estilo mediante atención compartida [Papel] [Código] [Proyecto]
- InstantBooth: generación personalizada de texto a imagen sin ajustes en el momento de la prueba [artículo] [Proyecto]
- Síntesis de sujeto a imagen centrada en la persona de alta fidelidad [artículo]
- RealCustom: Reducción de palabras de texto real para la personalización de texto a imagen en dominio abierto en tiempo real [Documento] [Proyecto]
- DisenDiff: Calibración de atención para personalización de texto a imagen desenredada [Papel] [Código]
- FreeCustom: Generación de imágenes personalizadas sin ajustes para una composición de múltiples conceptos [Artículo] [Código] [Proyecto]
- Residuos personalizados para la generación de texto a imagen basada en conceptos [artículo]
- Mejora de la síntesis de imágenes basada en el sujeto con orientación independiente del sujeto [artículo]
- JeDi: Modelos de difusión de imágenes conjuntas para la generación de texto a imagen personalizada y sin ajustes [artículo]
- Contrarrestar la generación personalizada de texto a imagen con marcas de agua de influencia [artículo]
- ECV
- Sea usted mismo: atención limitada para la generación de texto a imagen de múltiples sujetos [artículo] [Proyecto]
- Potente y flexible: generación personalizada de texto a imagen mediante aprendizaje por refuerzo [artículo] [código]
- TIGC: Personalización de imágenes sin ajustes con guía de imágenes y texto [Documento] [Código] [Proyecto]
- MasterWeaver: Dominar la editabilidad y la identidad facial para la generación personalizada de texto a imagen [Documento] [Código] [Proyecto]
- AAAI
- Incrustaciones de texto desacopladas para generación de imágenes personalizadas [artículo]
- arXiv
- FlashFace: Personalización de imágenes humanas con preservación de identidad de alta fidelidad [Documento] [Código] [Proyecto]
- MoMA: Adaptador LLM multimodal para una generación rápida de imágenes personalizadas [artículo]
- IDadapter: Aprendizaje de funciones mixtas para la personalización sin ajustes de modelos de texto a imagen [artículo]
- CoRe: Aprendizaje de incrustación de texto regularizado por contexto para la personalización de texto a imagen [artículo]
- Imagínese: generación de imágenes personalizadas sin ajustes [artículo] [proyecto]
- Año 2023
- CVPR
- Difusión personalizada: personalización de múltiples conceptos de difusión de texto a imagen [artículo] [código] [proyecto]
- DreamBooth: Ajuste fino de modelos de difusión de texto a imagen para la generación basada en sujetos [artículo] [Código] [Proyecto]
- ICCV
- ELITE: Codificación de conceptos visuales en incrustaciones textuales para una generación personalizada de texto a imagen [Papel] [Código]
- ICLR
- Inversión textual: una imagen vale más que una palabra: personalización de la generación de texto a imagen mediante la inversión textual [Documento] [Código] [Proyecto]
- SÍGRAFO
- Break-A-Scene: Extracción de múltiples conceptos de una sola imagen [artículo] [Código]
- Ajuste de dominio basado en codificador para una rápida personalización de modelos de texto a imagen [artículo] [Proyecto]
- LayerDiffusion: edición de imágenes controlada en capas con modelos de difusión [artículo]
- arXiv
- DreamTuner: Una sola imagen es suficiente para la generación basada en sujetos [artículo] [Proyecto]
- PhotoMaker: Personalización de fotografías humanas realistas mediante la incrustación de ID apiladas [Papel] [Código]
- Adaptador IP: Adaptador de mensajes de imagen compatibles con texto para modelos de difusión de texto a imagen [Papel] [Código] [Proyecto]
- FastComposer: generación de imágenes de múltiples sujetos sin ajustes con atención localizada [artículo] [código]
<Volver al inicio>
Edición de imágenes guiada por texto
- Año 2024
- CVPR
- InfEdit: Edición de imágenes sin inversiones con lenguaje natural [Documento] [Código] [Proyecto]
- Hacia la comprensión del cruce y la autoatención en la difusión estable para la edición de imágenes guiada por texto [artículo]
- Inferencia contrafactual doblemente abductiva para la edición de imágenes basada en texto [artículo] [Código]
- Concéntrese en sus instrucciones: edición de imágenes detallada y con múltiples instrucciones mediante modulación de la atención [artículo] [código]
- Puntuación de eliminación de ruido contrastante para la edición de imágenes por difusión latente guiada por texto [artículo]
- DragDiffusion: Aprovechamiento de modelos de difusión para la edición de imágenes interactiva basada en puntos [Artículo] [Código]
- DiffEditor: aumento de la precisión y la flexibilidad en la edición de imágenes basada en difusión [artículo]
- FreeDrag: Función de arrastre para una edición confiable de imágenes basada en puntos [Papel] [Código]
- Edición de imágenes basada en texto a través de regiones que se pueden aprender [Documento] [Código] [Proyecto] [Vídeo]
- LEDITS++: Edición de imágenes ilimitada utilizando modelos de texto a imagen [Papel] [Código] [Proyecto] [Demostración]
- SmartEdit: Exploración de la edición de imágenes basada en instrucciones complejas con modelos de lenguaje grandes [artículo] [Código] [Proyecto]
- Edite uno para todos: edición interactiva de imágenes por lotes [papel] [código] [proyecto]
- DiffMorpher: Liberando la capacidad de los modelos de difusión para la transformación de imágenes [artículo] [Código] [Proyecto] [Demostración]
- TiNO-Edit: optimización de ruido y paso de tiempo para una edición de imágenes sólida basada en difusión [artículo] [código]
- Persona en el lugar: generación de mapas asociativos de guía de esqueletos para la edición de imágenes de interacción persona-objeto [artículo] [proyecto] [código]
- Edición de imágenes de referencia: edición de imágenes a nivel de objeto mediante expresiones de referencia [artículo]
- Aumento rápido para la manipulación de imágenes guiada por texto y autosupervisada [artículo]
- El diablo está en los detalles: StyleFeatureEditor para inversión StyleGAN rica en detalles y edición de imágenes de alta calidad [Papel] [Código]
- ECV
- RegionDrag: Edición rápida de imágenes basada en regiones con modelos de difusión [Papel] [Código] [Proyecto] [Demostración]
- TurboEdit: Edición instantánea de imágenes basada en texto [Papel] [Proyecto]
- InstructGIE: Hacia la edición de imágenes generalizable [artículo]
- StableDrag: Arrastre estable para edición de imágenes basada en puntos [Papel]
- Inversión Eta: Diseño de una función Eta óptima para la edición de imágenes reales basada en difusión [Artículo] [Código] [Proyecto]
- SwapAnything: Habilitación del intercambio arbitrario de objetos en la edición de imágenes personalizada [Papel] [Código] [Proyecto]
- Guía y reescalado: mecanismo de autoguiada para una edición eficaz de imágenes reales sin ajustes [artículo]
- FreeDiff: Truncamiento de frecuencia progresiva para edición de imágenes con modelos de difusión [Artículo] [Código]
- Transformador de difusión diferida para edición de imágenes interactivas [artículo] [Proyecto]
- ByteEdit: Impulsar, cumplir y acelerar la edición de imágenes generativas [artículo] [Proyecto]
- ICLR
- Guía de edición de imágenes basada en instrucciones mediante modelos de lenguaje multimodal de gran tamaño [artículo] [código] [proyecto]
- La bendición de la aleatoriedad: SDE supera a ODE en la edición de imágenes basada en difusión general [artículo] [código] [proyecto]
- Guía de movimiento: edición de imágenes basada en difusión con estimadores de movimiento diferenciables [artículo] [Código] [Proyecto]
- Inversión y reensamblaje consciente de objetos para edición de imágenes [Papel] [Código] [Proyecto]
- Guía de mapas de ruido: inversión con contexto espacial para edición de imágenes reales [artículo]
- AAAI
- Control mejorado de inversión sin ajustes para una edición de imágenes consistente [artículo]
- BARET: Edición de imágenes reales basada en la atención equilibrada impulsada por la inversión del texto objetivo [artículo]
- Acelerar la edición de texto a imagen mediante inferencia de difusión dispersa habilitada para caché [artículo]
- Edición de imágenes basada en difusión de alta fidelidad [artículo]
- AdapEdit: Algoritmo de edición adaptativa guiada espacio-temporal para la edición de imágenes sensibles a la continuidad basada en texto [artículo]
- TexFit: edición de imágenes de moda basada en texto con modelos de difusión [artículo]
- arXiv
- Vale la pena recibir un mensaje por un artículo: edición de imágenes versátil con control desenredado [Papel] [Código]
- Adaptador unidimensional para gobernarlos a todos: conceptos, modelos de difusión y aplicaciones de borrado [artículo] [código] [proyecto]
- EditWorld: Simulación de la dinámica mundial para la edición de imágenes siguiendo instrucciones [artículo] [Código] [Proyecto]
- ReasonPix2Pix: Conjunto de datos de razonamiento de instrucciones para la edición avanzada de imágenes [artículo]
- FlowEdit: Edición basada en texto sin inversiones utilizando modelos de flujo previamente entrenados [Documento] [Código] [Proyecto] [Demostración]
- Año 2023
- CVPR
- Descubriendo la capacidad de desenredo en modelos de difusión de texto a imagen [artículo] [Código]
- SINE: Edición de una sola imagen con modelos de difusión de texto a imagen [Papel] [Código]
- Imagic: Edición de imágenes reales basada en texto con modelos de difusión [artículo]
- InstructPix2Pix: Aprender a seguir las instrucciones de edición de imágenes [Documento] [Código] [Conjunto de datos] [Proyecto] [Demostración]
- Inversión de texto nulo para editar imágenes reales utilizando modelos de difusión guiada [Artículo] [Código]
- ICCV
- MasaCtrl: Control de autoatención mutua sin ajustes para una síntesis y edición de imágenes consistentes [Documento] [Código] [Proyecto] [Demostración]
- Localización de variaciones de forma a nivel de objeto con modelos de difusión de texto a imagen [artículo] [Código] [Proyecto] [Demostración]
- ICLR
- SDEdit: Síntesis y edición de imágenes guiadas con ecuaciones diferenciales estocásticas [Artículo] [Código] [Proyecto]
- Año 2022
- CVPR
- DiffusionCLIP: Modelos de difusión guiados por texto para una manipulación sólida de imágenes [artículo] [Código]
<Volver al inicio>
Generación de imágenes de texto
- Año 2024
- arXiv
- AnyText: generación y edición de texto visual multilingüe [artículo] [código] [proyecto]
- CVPR
- SceneTextGen: Síntesis de imágenes de texto de escena independientes del diseño con difusión integrada a nivel de caracteres y coherencia contextual [artículo]
<Volver al inicio>
Conjuntos de datos
- Microsoft COCO: objetos comunes en contexto [artículo] [conjunto de datos]
- Subtítulos conceptuales: un conjunto de datos de texto alternativo de imágenes, hipernímico y limpio para subtítulos automáticos de imágenes [artículo] [Conjunto de datos]
- LAION-5B: Un conjunto de datos abierto a gran escala para entrenar modelos de imagen y texto de próxima generación [artículo] [Conjunto de datos]
- PartiPrompts: Escalado de modelos autorregresivos para la generación de texto a imagen rico en contenido [artículo] [Conjunto de datos] [Proyecto]
<Volver al inicio>
Cajas de herramientas
Nombre | Sitio web | Descripción |
---|
WebUI de difusión estable | enlace | Construido en base a Gradio, implementado localmente para ejecutar puntos de control de difusión estable, pesas LoRA, pesas ControlNet, etc. |
WebUI-forge de difusión estable | enlace | Construido en base a Gradio, implementado localmente para ejecutar puntos de control de difusión estable, pesas LoRA, pesas ControlNet, etc. |
Fooocus | enlace | Construido en base a Gradio, sin conexión, de código abierto y gratuito. No es necesario realizar ajustes manuales y los usuarios sólo deben centrarse en las indicaciones y las imágenes. |
Cómoda interfaz de usuario | enlace | Implementado localmente para permitir flujos de trabajo personalizados con Stable Diffusion |
Civitai | enlace | Sitios web para puntos de control comunitarios de difusión estable y LoRA |
<Volver al inicio>
Preguntas y respuestas
- P: ¿La secuencia de conferencias de esta lista de artículos?
- Esta lista de artículos está organizada según la siguiente secuencia:
- CVPR
- ICCV
- ECV
- WACV
- NeurIPS
- ICLR
- ICML
- ACMMM
- SÍGRAFO
- AAAI
- arXiv
- Otros
- P: ¿A qué se refiere
Others
?- Algunos de los siguientes estudios (por ejemplo,
Stable Casacade
) no publican su informe técnico en arXiv. En cambio, tienden a escribir un blog en sus sitios web oficiales. La categoría Others
se refiere a este tipo de estudios.
<Volver al inicio>
Referencias
El archivo reference.bib
resume las referencias bibtex de imágenes actualizadas en artículos de pintura, conjuntos de datos y kits de herramientas ampliamente utilizados. Basándome en las referencias originales, he realizado las siguientes modificaciones para que los resultados se vean bien en los manuscritos LaTeX
:
- Las referencias normalmente se construyen en forma de
author-etal-year-nickname
. En particular, las referencias de conjuntos de datos y kits de herramientas se construyen directamente como nickname
, por ejemplo, imagenet
. - En cada referencia, todos los nombres de conferencias/revistas se convierten en abreviaturas, por ejemplo,
Computer Vision and Pattern Recognition -> CVPR
. - Se eliminan la
url
, doi
, publisher
, organization
, editor
y series
en todas las referencias. - Las
pages
de todas las referencias se agregan si faltan. - Todos los nombres de los artículos están en mayúsculas y minúsculas. Además, agregué un
{}
adicional para asegurarme de que el título entre mayúsculas y minúsculas también funcione bien en algunas plantillas en particular.
Si tiene otras demandas de formatos de referencia, puede consultar las referencias originales de los artículos buscando sus nombres en DBLP o Google Scholar.
Nota
Tenga en cuenta que las referencias en la homepage
y la sección topic
se pueden repetir en reference.bib
. Personalmente, recomiendo usar "Ctrl+F" / "Command+F"
para buscar la referencia BibTeX
que desee.
<Volver al inicio>
Historia de las estrellas
<Volver al inicio>