Uma coleção de estudos de geração de texto para imagem
Este repositório GitHub resume documentos e recursos relacionados à tarefa de geração de texto para imagem (T2I).
Observação
Este documento serve como homepage
de todo o repositório GitHub. Os artigos são resumidos de acordo com diferentes direções de pesquisa, anos de publicação e conferências.
A seção topics
resume artigos altamente relacionados à geração de T2I de acordo com diferentes propriedades, por exemplo, pré-requisitos de geração de T2I, modelos de difusão com outras técnicas (por exemplo, Diffusion Transformer, LLMs, Mamba, etc.) e modelos de difusão para outras tarefas.
Se você tiver alguma sugestão sobre este repositório, sinta-se à vontade para iniciar um novo problema ou pull requests.
As notícias recentes deste repositório GitHub estão listadas a seguir.
[novembro. 19] Lançamos nosso último artigo intitulado "StableV2V: Stablizing Shape Consistency in Video-to-Video Editing", com o código correspondente, pesos de modelo e um benchmark de teste DAVIS-Edit
de código aberto. Fique à vontade para conferir nos links!
Clique para ver mais informações.
- [Abr. 26] Atualize um novo tópico: Modelos de difusão encontram aprendizagem federada. Veja a seção
topics
para mais detalhes! - [Mar. 28] A lista oficial de artigos AAAI 2024 foi divulgada! A versão oficial dos PDFs e as referências do BibTeX são atualizadas de acordo.
- [Mar. 21] A seção de
topics
foi atualizada. Esta seção tem como objetivo oferecer listas de artigos que são resumidos de acordo com outras propriedades dos modelos de difusão , por exemplo, métodos baseados em transformadores de difusão, modelos de difusão para PNL, modelos reference.bib
difusão integrados com LLMs, etc. reference.bib
. - [Mar. 7º] Todos os artigos e referências CVPR, ICLR e AAAI 2024 disponíveis são atualizados.
- [Mar. 1º] Os sites de produtos e kits de ferramentas de geração de texto para imagem prontos para uso são resumidos.
Conteúdo
- Produtos
- Listas de tarefas
- Artigos
- Documentos de pesquisa
- Geração de texto para imagem
- Ano 2024
- Ano 2023
- Ano 2022
- Ano 2021
- Ano 2020
- Geração condicional de texto para imagem
- Ano 2024
- Ano 2023
- Ano 2022
- Geração personalizada de texto para imagem
- Edição de imagem guiada por texto
- Ano 2024
- Ano 2023
- Ano 2022
- Geração de imagem de texto
- Conjuntos de dados
- Kits de ferramentas
- Perguntas e respostas
- Referências
- História das Estrelas
Listas de tarefas
- Artigos Publicados em Conferências
- Manutenção regular de artigos pré-impressos arXiv e artigos perdidos
<Voltar ao início>
Produtos
Nome | Ano | Site | Especialidades |
---|
Difusão Estável 3 | 2024 | link | Difusão estável baseada em transformador de difusão |
Vídeo estável | 2024 | link | Imagens de alta qualidade e alta resolução |
DALL-E 3 | 2023 | link | Colabore com ChatGPT |
Ideograma | 2023 | link | Imagens de texto |
Parque infantil | 2023 | link | Imagens atéticas |
HiDream.ai | 2023 | link | - |
Painel | 2023 | link | Geração de texto para quadrinhos |
RODA | 2023 | link | WHEE é uma ferramenta online de geração de IA, que pode ser aplicada para geração T2I, geração I2I, SR, pintura interna, pintura externa, variação de imagem, teste virtual, etc. |
IA Vega | 2023 | link | Vega AI é uma ferramenta online de geração de IA, que pode ser aplicada para geração T2I, geração I2I, SR, geração T2V, geração I2V, etc. |
IA Wujie | 2022 | link | O nome chinês é "无界AI", oferecendo recursos AIGC e serviços online |
Meio da jornada | 2022 | link | Poderosa ferramenta de geração de código próximo |
<Voltar ao início>
Artigos
Documentos de pesquisa
- Geração de texto para imagem
- Ano 2024
- Pesquisas de computação ACM
- Modelos de difusão: uma pesquisa abrangente de métodos e aplicações [artigo]
- Ano 2023
- TPAMI
- Modelos de difusão em visão: uma pesquisa [artigo] [código]
- arXiv
- Modelos de difusão de texto para imagem em IA generativa: uma pesquisa [artigo]
- Estado da Arte em Modelos de Difusão para Computação Visual [Artigo]
- Ano 2022
- arXiv
- Modelos de difusão eficientes para visão: uma pesquisa [artigo]
- Geração condicional de texto para imagem
- Ano 2024
- arXiv
- Geração controlável com modelos de difusão de texto para imagem: uma pesquisa [artigo]
- Edição de imagem guiada por texto
- Ano 2024
- arXiv
- Edição de imagem baseada em modelo de difusão: uma pesquisa [artigo] [código]
<Voltar ao início>
Geração de texto para imagem
- Ano 2024
- CVPR
- DistriFusion: Inferência Paralela Distribuída para Modelos de Difusão de Alta Resolução [Artigo] [Código]
- InstanceDiffusion: controle em nível de instância para geração de imagens [Papel] [Código] [Projeto]
- ECLIPSE: uma conversão de texto em imagem com uso eficiente de recursos para geração de imagens [Papel] [Código] [Projeto] [Demonstração]
- Instruct-Imagen: Geração de imagem com instrução multimodal [Papel]
- Aprendendo palavras 3D contínuas para geração de texto em imagem [Papel] [Código]
- HanDiffuser: geração de texto para imagem com aparências realistas de mãos [papel]
- Feedback humano rico para geração de texto em imagem [papel]
- MarkovGen: previsão estruturada para geração eficiente de texto para imagem [artigo]
- Assistente de Personalização para Geração de Texto para Imagem [Papel]
- ADI: Aprendendo identificadores desembaraçados para geração de texto em imagem personalizada por ação [Artigo] [Projeto]
- UFOGen: você encaminha uma vez a geração de texto para imagem em grande escala por meio de GANs de difusão [artigo]
- Autodescoberta de direções latentes de difusão interpretável para geração responsável de texto para imagem [artigo]
- Visões Personalizadas: Aprimorando a Geração de Texto para Imagem com Reescrita de Prompt Personalizada [Papel] [Código]
- CoDi: Destilação por difusão condicional para geração de imagem mais rápida e de maior fidelidade [Papel] [Código] [Projeto] [Demonstração]
- Geração e upsampling de imagens em escala arbitrária usando modelo de difusão latente e decodificador neural implícito [artigo]
- Rumo ao uso eficaz de priores centrados no ser humano em modelos de difusão para geração de imagens humanas baseadas em texto [artigo]
- ElasticDiffusion: geração de imagens de tamanho arbitrário sem treinamento [Papel] [Código] [Projeto] [Demonstração]
- CosmicMan: um modelo básico de texto para imagem para humanos [Artigo] [Código] [Projeto]
- PanFusion: Controlando a difusão estável para texto para geração de imagem panorâmica de 360 ° [Papel] [Código] [Projeto]
- Grimm inteligente: narrativa visual aberta por meio de modelos de difusão latente [Artigo] [Código] [Projeto]
- Sobre a escalabilidade da geração de texto para imagem baseada em difusão [artigo]
- MuLAn: um conjunto de dados anotado em múltiplas camadas para geração controlável de texto para imagem [Papel] [Projeto] [Conjunto de dados]
- Aprendendo a preferência humana multidimensional para geração de texto para imagem [papel]
- Otimização dinâmica de prompt para geração de texto para imagem [papel]
- Treinamento de modelos de difusão para geração diversificada de imagens com aprendizagem por reforço [artigo]
- Texto adversário para geração contínua de imagens [Papel] [Projeto] [Vídeo]
- EmoGen: geração de conteúdo de imagem emocional com modelos de difusão de texto para imagem [artigo] [código]
- ECCV
- Unindo diferentes modelos de linguagem e modelos de visão generativa para geração de texto para imagem [Papel] [Código] [Projeto]
- Explorando o aterramento em nível de frase com modelo de difusão de texto para imagem [artigo] [código]
- Fazendo certo: melhorando a consistência espacial em modelos de texto para imagem [Papel] [Código] [Projeto]
- Navegando pelo viés generativo de texto para imagem em idiomas índicos [Artigo] [Projeto]
- Proteja modelos de difusão de texto para imagem com inversão de feedback humano [artigo]
- A fabricação da realidade e da fantasia: geração de cena com interpretação imediata assistida por LLM [Artigo] [Código] [Projeto] [Conjunto de dados]
- Eliminação de conceito confiável e eficiente de modelos de difusão de texto para imagem [artigo] [código]
- Explorando o aterramento em nível de frase com modelo de difusão de texto para imagem [artigo] [código]
- StyleTokenizer: Definindo estilo de imagem por uma única instância para controlar modelos de difusão [Papel] [Código]
- PEA-Diffusion: Adaptador com eficiência de parâmetros com destilação de conhecimento na geração de texto para imagem em idioma diferente do inglês [Artigo] [Código]
- Distorções no espaço do fenômeno impedem a generalização na geração de texto para imagem [Papel] [Código]
- Parrot: Estrutura de aprendizagem de reforço de múltiplas recompensas ideal para Pareto para geração de texto para imagem [artigo]
- Unindo diferentes modelos de linguagem e modelos de visão generativa para geração de texto para imagem [Papel] [Código] [Projeto]
- MobileDiffusion: geração instantânea de texto para imagem em dispositivos móveis [papel]
- PixArt-Σ: Treinamento fraco a forte de transformador de difusão para geração de texto em imagem 4K [Papel] [Código] [Projeto]
- CogView3: Geração de texto para imagem mais precisa e rápida via difusão de relé [Papel] [Código]
- ICLR
- Modelos de difusão com eliminação de ruído corrigidos para síntese de imagens de alta resolução [Papel] [Código]
- Difusão de Retransmissão: Unificando o processo de difusão entre resoluções para síntese de imagens [Artigo] [Código]
- SDXL: Melhorando Modelos de Difusão Latente para Síntese de Imagens de Alta Resolução [Artigo] [Código]
- Compor e conquistar: síntese de imagem composta com reconhecimento de profundidade 3D baseada em difusão [papel] [código]
- PixArt-α: Treinamento rápido de transformador de difusão para síntese fotorrealística de texto para imagem [Papel] [Código] [Projeto] [Demonstração]
- SIGGRAFO
- RGB↔X: decomposição e síntese de imagens usando modelos de difusão sensíveis a materiais e iluminação [Papel] [Projeto]
- AAAI
- Aumento de dados com reconhecimento semântico para síntese de texto para imagem [artigo]
- Geração de texto para imagem para conceitos abstratos [artigo]
- arXiv
- Ajuste fino de reprodução automática de modelos de difusão para geração de texto para imagem [papel]
- RPG: Dominando a difusão de texto para imagem: recapturando, planejando e gerando com LLMs multimodais [Artigo] [Código]
- Playground v2.5: Três insights para melhorar a qualidade estética na geração de texto para imagem [Papel] [Código]
- ResAdapter: Adaptador de resolução consistente de domínio para modelos de difusão [Artigo] [Código] [Projeto]
- InstantID: geração zero-shot de preservação de identidade em segundos [Artigo] [Código] [Projeto] [Demonstração]
- PIXART-δ: Geração de imagens rápida e controlável com modelos de consistência latente [Papel] [Código]
- ELLA: Equipar modelos de difusão com LLM para alinhamento semântico aprimorado [Artigo] [Código] [Projeto]
- Text2Street: geração controlável de texto em imagem para Street Views [artigo]
- LayerDiffuse: Difusão de camada de imagem transparente usando transparência latente [Papel] [Código]
- SD3-Turbo: Síntese Rápida de Imagens de Alta Resolução com Destilação por Difusão Adversarial Latente [Papel]
- StreamMultiDiffusion: geração interativa em tempo real com controle semântico baseado em região [artigo] [código]
- SVGDreamer: Geração SVG guiada por texto com modelo de difusão [Artigo] [Código] [Projeto]
- PromptCharm: geração de texto para imagem por meio de prompt e refinamento multimodal [papel]
- YOSO: Você só experimenta uma vez: domesticando a síntese de texto para imagem em uma etapa por GANs de difusão autocooperativa [Artigo] [Código]
- SingDiffusion: Lidando com as singularidades nos pontos finais dos intervalos de tempo em modelos de difusão [Artigo] [Código]
- CoMat: Alinhando modelo de difusão de texto para imagem com correspondência de conceito de imagem para texto [Papel] [Código] [Projeto]
- StoryDiffusion: Autoatenção consistente para geração de imagens e vídeos de longo alcance [Artigo] [Código] [Projeto] [Demonstração]
- Adaptador facial para modelos de difusão pré-treinados com identificação refinada e controle de atributos [artigo] [projeto]
- LinFusion: 1 GPU, 1 minuto, imagem de 16K [Papel] [Código] [Projeto] [Demonstração]
- OmniGen: Geração Unificada de Imagens [Papel] [Código]
- CoMPaSS: Melhorando a compreensão espacial em modelos de difusão de texto para imagem [artigo] [código]
- Outros
- Cascata Estável [Blog] [Código]
<Voltar ao início>
- Ano 2023
- CVPR
- GigaGAN: Ampliando GANs para síntese de texto para imagem [Artigo] [Código reproduzido] [Projeto] [Vídeo]
- ERNIE-ViLG 2.0: Melhorando o modelo de difusão de texto para imagem com mistura de especialistas em eliminação de ruído aprimorada por conhecimento [artigo]
- Difusão deslocada para geração de texto para imagem [Papel] [Código]
- GALIP: CLIPs Adversariais Generativos para Síntese de Texto para Imagem [Artigo] [Código]
- Difusão especializada: ajuste fino plug-and-play com amostra eficiente de modelos de difusão de texto para imagem para aprender qualquer estilo invisível [artigo] [código]
- Rumo à avaliação humana verificável e reproduzível para geração de texto para imagem [artigo]
- RIATIG: Geração Adversarial de Texto para Imagem Confiável e Imperceptível com Prompts Naturais [Papel] [Código]
- ICCV
- DiffFit: Desbloqueando a transferibilidade de modelos de difusão grande por meio de ajuste fino simples e eficiente de parâmetros [Artigo] [Código] [Demonstração]
- NeuroIPS
- ImageReward: Aprendendo e avaliando preferências humanas para geração de texto para imagem [Artigo] [Código]
- RAPHAEL : Geração de texto para imagem por meio de grande mistura de caminhos de difusão [Artigo] [Projeto]
- Vinculação linguística em modelos de difusão: aprimorando a correspondência de atributos por meio do alinhamento do mapa de atenção [artigo] [código]
- DenseDiffusion: geração densa de texto para imagem com modulação de atenção [artigo] [código]
- ICLR
- Orientação de difusão estruturada sem treinamento para síntese composicional de texto para imagem [artigo] [código]
- ICML
- StyleGAN-T: Desbloqueando o poder dos GANs para síntese rápida de texto para imagem em grande escala [Papel] [Código] [Projeto] [Vídeo]
- Muse: Geração de texto para imagem por meio de transformadores generativos mascarados [Papel] [Código reproduzido] [Projeto]
- UniDiffusers: Um transformador se adapta a todas as distribuições em difusão multimodal em escala [Papel] [Código]
- ACM MM
- Adaptador SUR: Aprimorando modelos de difusão pré-treinados de texto para imagem com modelos de linguagem grande [artigo] [código]
- ControlStyle: geração de imagem estilizada baseada em texto usando difusão anterior [papel]
- SIGGRAFO
- Atender e Excitar: Orientação Semântica Baseada em Atenção para Modelos de Difusão de Texto para Imagem [Artigo] [Código] [Projeto] [Demonstração]
- arXiv
- P+: Condicionamento Textual Estendido na Geração de Texto para Imagem [Papel]
- SDXL-Turbo: Destilação por Difusão Adversarial [Papel] [Código]
- Wuerstchen: Uma Arquitetura Eficiente para Modelos de Difusão de Texto para Imagem em Grande Escala [Papel] [Código]
- StreamDiffusion: uma solução em nível de pipeline para geração interativa em tempo real [Artigo] [Projeto]
- ParaDiffusion: geração de parágrafo para imagem com modelo de difusão enriquecido com informações [artigo] [código]
- Outros
- DALL-E 3: Melhorando a geração de imagens com melhores legendas [papel]
<Voltar ao início>
- Ano 2022
- CVPR
- Difusão estável: síntese de imagens de alta resolução com modelos de difusão latente [Artigo] [Código] [Projeto]
- Modelo de difusão quantizada vetorial para síntese de texto para imagem [artigo] [código]
- DF-GAN: Uma linha de base simples e eficaz para síntese de texto para imagem [Papel] [Código]
- LAFITE: Rumo ao treinamento sem idiomas para geração de texto para imagem [Artigo] [Código]
- Síntese de texto para imagem baseada em transformador de decodificação conjunta guiada por objeto [papel]
- StyleT2I: Rumo à síntese de texto para imagem composicional e de alta fidelidade [Papel] [Código]
- ECCV
- Make-A-Scene: geração de texto para imagem baseada em cena com antecedentes humanos [Papel] [Código] [Demonstração]
- Rastrear texto controlado para geração de imagem [papel]
- Geração aprimorada de imagens mascaradas com Token-Critic [paper]
- VQGAN-CLIP: Geração e manipulação de imagens de domínio aberto usando linguagem natural [Papel] [Código]
- TISE: Conjunto de métricas para avaliação de síntese de texto para imagem [artigo] [código]
- StoryDALL-E: Adaptando transformadores de texto para imagem pré-treinados para continuação de história [Artigo] [Código] [Demonstração]
- NeuroIPS
- CogView2: geração de texto para imagem mais rápida e melhor por meio de transformadores hierárquicos [artigo] [código]
- Imagem: Modelos fotorrealistas de difusão de texto para imagem com compreensão profunda da linguagem [Artigo] [Código reproduzido] [Projeto] [ Imagem 2 ]
- ACM MM
- Adma-GAN: GANs aumentados de memória baseada em atributos para geração de texto para imagem [Papel] [Código]
- Geração de layout de fundo e transferência de conhecimento de objeto para geração de texto para imagem [papel]
- DSE-GAN: Rede Adversarial Gerativa de Evolução Semântica Dinâmica para Geração de Texto para Imagem [Artigo]
- AtHom: duas atenções divergentes estimuladas pelo treinamento homomórfico na síntese de texto para imagem [artigo]
- arXiv
- DALLE-2: Geração hierárquica de imagem condicional de texto com CLIP Latents [Papel]
- PITI: Pré-treinamento é tudo que você precisa para tradução imagem para imagem [Papel] [Código]
<Voltar ao início>
- Ano 2021
- ICCV
- DAE-GAN: GAN dinâmico com reconhecimento de aspecto para síntese de texto para imagem [Papel] [Código]
- NeuroIPS
- CogView: Dominando a geração de texto para imagem por meio de transformadores [Papel] [Código] [Demonstração]
- UFC-BERT: Unificando controles multimodais para síntese condicional de imagens [artigo]
- ICML
- DALLE-1: Geração de texto para imagem Zero-Shot [Papel] [Código Reproduzido]
- ACM MM
- GAN inverso consistente com ciclo para síntese de texto para imagem [papel]
- R-GAN: Explorando o caminho semelhante ao humano para uma síntese razoável de texto para imagem por meio de redes adversárias generativas [artigo]
<Voltar ao início>
- Ano 2020
- ACM MM
- Síntese de texto para imagem via layout estético [papel]
<Voltar ao início>
Geração condicional de texto para imagem
- Ano 2024
- CVPR
- PLACE: Fusão semântica-layout adaptativa para síntese semântica de imagens [artigo]
- Síntese de imagem estilizada com reconhecimento de estrutura única [papel]
- Síntese fundamentada de texto para imagem com reorientação da atenção [Papel] [Código] [Projeto] [Demonstração]
- Difusão latente grossa a fina para síntese de imagem de pessoa guiada por pose [papel] [código]
- DetDiffusion: Sinergizando Modelos Gerativos e Perceptivos para Melhor Geração e Percepção de Dados [Artigo]
- CAN: Rede Neural com Consciência de Condição para Geração Controlada de Imagens [Papel]
- SceneDiffusion: mova qualquer coisa com difusão de cena em camadas [papel]
- Zero-Painter: Controle de layout sem treinamento para síntese de texto para imagem [Papel] [Código]
- MIGC: Controlador de geração de múltiplas instâncias para síntese de texto para imagem [Papel] [Código] [Projeto]
- FreeControl: Controle espacial sem treinamento de qualquer modelo de difusão de texto para imagem com qualquer condição [Papel] [Código] [Projeto]
- ECCV
- PreciseControl: Aprimorando modelos de difusão de texto para imagem com controle de atributos refinado [Papel] [Código] [Projeto]
- AnyControl: Crie sua arte com controle versátil na geração de texto para imagem [Papel] [Código]
- ICLR
- Avanço na síntese de imagens guiadas por pose com modelos de difusão condicional progressiva [artigo] [código]
- WACV
- Controle de layout sem treinamento com orientação de atenção cruzada [Artigo] [Código] [Projeto] [Demonstração]
- AAAI
- SSMG: Modelo de difusão guiada por mapa semântico-espacial para geração de layout para imagem de forma livre [artigo]
- Síntese Composicional de Texto para Imagem com Controle de Mapa de Atenção de Modelos de Difusão [Artigo] [Código]
- arXiv
- DEADiff: Um modelo de difusão de estilização eficiente com representações desembaraçadas [artigo]
- InstantStyle: almoço grátis para preservação de estilo na geração de texto para imagem [Papel] [Código] [Projeto]
- ControlNet++: Melhorando controles condicionais com feedback de consistência eficiente [Artigo] [Projeto]
- Hunyuan-DiT: um poderoso transformador de difusão multi-resolução com compreensão refinada do chinês [Artigo] [Código] [Projeto]
- DialogGen: Sistema de diálogo interativo multimodal para geração multivoltas de texto para imagem [Papel] [Código] [Projeto]
- ControlNeXt: Controle poderoso e eficiente para geração de imagens e vídeos [Papel] [Código] [Projeto]
- UniPortrait: uma estrutura unificada para preservação de identidade, personalização de imagens individuais e multi-humanas [Papel] [Código] [Projeto] [Demonstração]
- OmniControl: Controle Mínimo e Universal para Transformador de Difusão [Papel] [Código] [Demo]
- UnZipLoRA: Separando conteúdo e estilo de uma única imagem [Papel] [Projeto]
- CtrLoRA: Uma estrutura extensível e eficiente para geração de imagens controláveis [Papel] [Código]
- Geração de texto para imagem com reconhecimento de região por meio de encadernação rígida e refinamento suave [Papel] [Código]
<Voltar ao início>
- Ano 2023
- CVPR
- GLIGEN: Geração de texto para imagem fundamentada em conjunto aberto [Papel] [Código] [Projeto] [Demonstração] [Vídeo]
- Geração de imagem autorregressiva usando quantização residual [Papel] [Código]
- SpaText: Representação Espaço-Textual para Geração de Imagens Controláveis [Papel] [Projeto] [Vídeo]
- Geração de texto para imagem com GAN com reconhecimento semântico-espacial [artigo]
- ReCo: geração de texto para imagem controlada por região [papel] [código]
- LayoutDiffusion: modelo de difusão controlável para geração de layout para imagem [Papel] [Código]
- ICCV
- ControlNet: Adicionando controle condicional a modelos de difusão de texto para imagem [Papel] [Código]
- SceneGenie: Modelos de difusão guiada por gráfico de cena para síntese de imagens [Papel] [Código]
- ZestGuide: Condicionamento de layout espacial Zero-Shot para modelos de difusão de texto para imagem [papel]
- ICML
- Composer: Síntese de imagens criativas e controláveis com condições de composição [Papel] [Código] [Projeto]
- Multidifusão: fusão de caminhos de difusão para geração controlada de imagens [Papel] [Código] [Vídeo] [Projeto] [Demonstração]
- SIGGRAFO
- Modelos de difusão de texto para imagem guiados por esboço [Papel] [Código Reproduzido] [Projeto]
- NeuroIPS
- Uni-ControlNet: Controle tudo-em-um para modelos de difusão de texto para imagem [Papel] [Código] [Projeto]
- Difusão imediata: aprendizagem no contexto desbloqueada para modelos de difusão [Artigo] [Código] [Projeto]
- WACV
- Mais controle de graça! Síntese de imagens com orientação de difusão semântica [artigo]
- ACM MM
- LayoutLLM-T2I: Obtendo orientação de layout do LLM para geração de texto para imagem [papel]
- arXiv
- Adaptador T2I: Adaptadores de aprendizagem para descobrir capacidade mais controlável para modelos de difusão de texto para imagem [Papel] [Código] [Demonstração]
- BLIP-Diffusion: representação de assunto pré-treinado para geração e edição controlável de texto para imagem [artigo] [código]
- Orientação de difusão de restrição tardia para síntese de imagem controlável [artigo] [código]
- Ano 2022
- ICLR
- SDEdit: Síntese e edição guiada de imagens com equações diferenciais estocásticas [Artigo] [Código] [Projeto]
<Voltar ao início>
Geração personalizada de texto para imagem
- Ano 2024
- CVPR
- Inicialização cruzada para geração personalizada de texto para imagem [papel]
- Quando StyleGAN encontra difusão estável: um adaptador W + para geração de imagem personalizada [Papel] [Código] [Projeto]
- Geração de imagem alinhada ao estilo por meio de atenção compartilhada [Papel] [Código] [Projeto]
- InstantBooth: geração personalizada de texto para imagem sem ajuste fino no tempo de teste [Artigo] [Projeto]
- Síntese de assunto para imagem centrada na pessoa de alta fidelidade [papel]
- RealCustom: Limitando palavras de texto real para personalização de texto para imagem em domínio aberto em tempo real [Artigo] [Projeto]
- DisenDiff: Calibração de atenção para personalização desemaranhada de texto para imagem [Papel] [Código]
- FreeCustom: Geração de imagens personalizadas sem ajuste para composição multiconceito [Papel] [Código] [Projeto]
- Resíduos personalizados para geração de texto em imagem baseada em conceito [papel]
- Melhorando a síntese de imagens orientadas para o assunto com orientação independente do assunto [artigo]
- JeDi: modelos de difusão de imagem conjunta para geração de texto para imagem personalizada sem ajuste fino [papel]
- Combatendo a geração personalizada de texto para imagem com marcas d'água de influência [papel]
- ECCV
- Seja você mesmo: atenção limitada para geração de texto em imagem com vários assuntos [Artigo] [Projeto]
- Poderoso e flexível: geração personalizada de texto em imagem por meio de aprendizado por reforço [artigo] [código]
- TIGC: Personalização de imagem sem ajuste com orientação de imagem e texto [Papel] [Código] [Projeto]
- MasterWeaver: Controlando a capacidade de edição e a identidade facial para geração personalizada de texto em imagem [Papel] [Código] [Projeto]
- AAAI
- Embeddings textuais desacoplados para geração de imagens personalizadas [papel]
- arXiv
- FlashFace: Personalização de imagem humana com preservação de identidade de alta fidelidade [Papel] [Código] [Projeto]
- MoMA: Adaptador LLM Multimodal para Geração Rápida de Imagens Personalizadas [Papel]
- IDAdapter: Aprendendo recursos mistos para personalização sem ajuste de modelos de texto para imagem [papel]
- CoRe: Aprendizagem de incorporação de texto regulamentado pelo contexto para personalização de texto para imagem [artigo]
- Imagine você mesmo: Geração de imagem personalizada sem ajuste [Papel] [Projeto]
- Ano 2023
- CVPR
- Difusão Personalizada: Personalização Multiconceito de Difusão de Texto para Imagem [Papel] [Código] [Projeto]
- DreamBooth: Ajuste fino de modelos de difusão de texto para imagem para geração baseada em assunto [Papel] [Código] [Projeto]
- ICCV
- ELITE: Codificando conceitos visuais em incorporações textuais para geração personalizada de texto em imagem [Papel] [Código]
- ICLR
- Inversão Textual: Uma Imagem Vale Uma Palavra: Personalizando a Geração de Texto para Imagem Usando Inversão Textual [Papel] [Código] [Projeto]
- SIGGRAFO
- Break-A-Scene: Extraindo Vários Conceitos de uma Única Imagem [Papel] [Código]
- Ajuste de domínio baseado em codificador para personalização rápida de modelos de texto para imagem [Artigo] [Projeto]
- LayerDiffusion: Edição de imagem controlada em camadas com modelos de difusão [Papel]
- arXiv
- DreamTuner: Uma única imagem é suficiente para geração baseada em assunto [Artigo] [Projeto]
- PhotoMaker: Personalização de fotos humanas realistas por meio de incorporação de ID empilhada [papel] [código]
- Adaptador IP: Adaptador de prompt de imagem compatível com texto para modelos de difusão de texto para imagem [Papel] [Código] [Projeto]
- FastComposer: Geração de imagens multiassuntos sem ajuste com atenção localizada [Artigo] [Código]
<Voltar ao início>
Edição de imagem guiada por texto
- Ano 2024
- CVPR
- InfEdit: Edição de imagens sem inversão com linguagem natural [Papel] [Código] [Projeto]
- Para compreender a atenção cruzada e a autoatenção na difusão estável para edição de imagens guiada por texto [papel]
- Inferência contrafactual duplamente abdutiva para edição de imagens baseada em texto [Artigo] [Código]
- Concentre-se em suas instruções: edição de imagens refinada e com múltiplas instruções por modulação de atenção [artigo] [código]
- Pontuação de redução de ruído contrastiva para edição de imagem de difusão latente guiada por texto [papel]
- DragDiffusion: Aproveitando modelos de difusão para edição interativa de imagens baseadas em pontos [Artigo] [Código]
- DiffEditor: Aumentando a precisão e a flexibilidade na edição de imagens baseada em difusão [artigo]
- FreeDrag: recurso de arrastar para edição confiável de imagens com base em pontos [Papel] [Código]
- Edição de imagens baseada em texto por meio de regiões que podem ser aprendidas [Papel] [Código] [Projeto] [Vídeo]
- LEDITS++: Edição ilimitada de imagens usando modelos de texto para imagem [Papel] [Código] [Projeto] [Demo]
- SmartEdit: Explorando a edição de imagens complexas baseada em instruções com modelos de linguagem grande [Artigo] [Código] [Projeto]
- Editar um por todos: edição interativa de imagens em lote [Papel] [Código] [Projeto]
- DiffMorpher: liberando a capacidade dos modelos de difusão para transformação de imagens [Papel] [Código] [Projeto] [Demonstração]
- TiNO-Edit: Otimização de passo de tempo e ruído para edição robusta de imagens baseada em difusão [Papel] [Código]
- Pessoa no local: Gerando mapas associativos de orientação de esqueleto para edição de imagens de interação humano-objeto [Artigo] [Projeto] [Código]
- Edição de imagem de referência: edição de imagem em nível de objeto por meio de expressões de referência [papel]
- Aumento imediato para manipulação de imagem guiada por texto auto-supervisionada [papel]
- O diabo está nos detalhes: StyleFeatureEditor para inversão StyleGAN rica em detalhes e edição de imagens de alta qualidade [Papel] [Código]
- ECCV
- RegionDrag: Edição rápida de imagens baseada em região com modelos de difusão [Papel] [Código] [Projeto] [Demo]
- TurboEdit: Edição instantânea de imagens baseadas em texto [Papel] [Projeto]
- InstructGIE: Rumo à edição de imagens generalizáveis [artigo]
- StableDrag: Arrastar Estável para Edição de Imagem Baseada em Pontos [Papel]
- Inversão Eta: Projetando uma Função Eta Ideal para Edição de Imagem Real Baseada em Difusão [Papel] [Código] [Projeto]
- SwapAnything: Habilitando a troca arbitrária de objetos na edição de imagens personalizadas [Papel] [Código] [Projeto]
- Guide-and-Rescale: mecanismo de autoorientação para edição eficaz de imagens reais sem ajuste [papel]
- FreeDiff: Truncamento de frequência progressiva para edição de imagens com modelos de difusão [Papel] [Código]
- Transformador de difusão lenta para edição interativa de imagens [Papel] [Projeto]
- ByteEdit: Impulsione, cumpra e acelere a edição generativa de imagens [Artigo] [Projeto]
- ICLR
- Orientando a edição de imagens baseada em instruções por meio de modelos multimodais de grande linguagem [Artigo] [Código] [Projeto]
- A bênção da aleatoriedade: SDE supera ODE na edição geral de imagens baseada em difusão [Artigo] [Código] [Projeto]
- Orientação de movimento: edição de imagens baseada em difusão com estimadores de movimento diferenciáveis [Artigo] [Código] [Projeto]
- Inversão e remontagem com reconhecimento de objeto para edição de imagens [Papel] [Código] [Projeto]
- Orientação do mapa de ruído: inversão com contexto espacial para edição de imagem real [papel]
- AAAI
- Controle aprimorado por inversão sem ajuste para edição consistente de imagens [papel]
- BARET: Edição de imagem real baseada em atenção balanceada impulsionada pela inversão do texto alvo [Papel]
- Acelerando a edição de texto para imagem por meio de inferência de difusão esparsa habilitada para cache [artigo]
- Edição de imagens baseada em difusão de alta fidelidade [papel]
- AdapEdit: Algoritmo de edição adaptativa guiada espaço-temporal para edição de imagens sensíveis à continuidade baseada em texto [papel]
- TexFit: edição de imagens de moda baseada em texto com modelos de difusão [papel]
- arXiv
- Um item vale a pena ser avisado: edição versátil de imagens com controle desembaraçado [Papel] [Código]
- Adaptador unidimensional para governar todos: conceitos, modelos de difusão e aplicações de apagamento [Papel] [Código] [Projeto]
- EditWorld: Simulando a dinâmica mundial para edição de imagens seguindo instruções [Artigo] [Código] [Projeto]
- ReasonPix2Pix: Conjunto de dados de raciocínio de instruções para edição avançada de imagens [artigo]
- FlowEdit: edição baseada em texto sem inversão usando modelos de fluxo pré-treinados [Papel] [Código] [Projeto] [Demonstração]
- Ano 2023
- CVPR
- Descobrindo a capacidade de desemaranhamento em modelos de difusão de texto para imagem [Papel] [Código]
- SINE: Edição de imagem única com modelos de difusão de texto para imagem [Papel] [Código]
- Imagic: Edição de imagem real baseada em texto com modelos de difusão [papel]
- InstructPix2Pix: Aprendendo a seguir as instruções de edição de imagens [Papel] [Código] [Conjunto de dados] [Projeto] [Demonstração]
- Inversão de texto nulo para edição de imagens reais usando modelos de difusão guiada [Papel] [Código]
- ICCV
- MasaCtrl: Controle de autoatenção mútua sem ajuste para síntese e edição consistente de imagens [Papel] [Código] [Projeto] [Demonstração]
- Localização de variações de forma em nível de objeto com modelos de difusão de texto para imagem [Papel] [Código] [Projeto] [Demonstração]
- ICLR
- SDEdit: Síntese e edição guiada de imagens com equações diferenciais estocásticas [Artigo] [Código] [Projeto]
- Ano 2022
- CVPR
- DiffusionCLIP: Modelos de difusão guiados por texto para manipulação robusta de imagens [Papel] [Código]
<Voltar ao início>
Geração de imagem de texto
- Ano 2024
- arXiv
- AnyText: Geração e edição de texto visual multilíngue [Papel] [Código] [Projeto]
- CVPR
- SceneTextGen: Síntese de imagem de texto de cena independente de layout com difusão integrada em nível de caractere e consistência contextual [artigo]
<Voltar ao início>
Conjuntos de dados
- Microsoft COCO: objetos comuns no contexto [artigo] [conjunto de dados]
- Legendas conceituais: um conjunto de dados de texto alternativo de imagem limpo e com hiperônimo para legenda automática de imagens [papel] [conjunto de dados]
- LAION-5B: um conjunto de dados aberto em grande escala para treinamento de modelos de imagem-texto de próxima geração [artigo] [conjunto de dados]
- PartiPrompts: Dimensionando modelos autoregressivos para geração de texto para imagem rico em conteúdo [Artigo] [Conjunto de dados] [Projeto]
<Voltar ao início>
Kits de ferramentas
Nome | Site | Descrição |
---|
WebUI de difusão estável | link | Construído com base em Gradio, implantado localmente para executar pontos de verificação de difusão estável, pesos LoRA, pesos ControlNet, etc. |
Difusão estável WebUI-forge | link | Construído com base em Gradio, implantado localmente para executar pontos de verificação de difusão estável, pesos LoRA, pesos ControlNet, etc. |
Fooocus | link | Construído com base em Gradio, offline, de código aberto e gratuito. O ajuste manual não é necessário e os usuários só precisam se concentrar nas instruções e nas imagens. |
UI confortável | link | Implantado localmente para permitir fluxos de trabalho personalizados com difusão estável |
Civitai | link | Sites para pontos de verificação comunitários de difusão estável e LoRA |
<Voltar ao início>
Perguntas e respostas
- P: A sequência da conferência desta lista de artigos?
- Esta lista de artigos está organizada de acordo com a seguinte sequência:
- CVPR
- ICCV
- ECCV
- WACV
- NeuroIPS
- ICLR
- ICML
- ACM MM
- SIGGRAFO
- AAAI
- arXiv
- Outros
- P: A que se refere
Others
?- Alguns dos estudos a seguir (por exemplo,
Stable Casacade
) não publicam seus relatórios técnicos no arXiv. Em vez disso, eles tendem a escrever um blog em seus sites oficiais. A categoria Others
refere-se a esse tipo de estudos.
<Voltar ao início>
Referências
O arquivo reference.bib
resume referências bibtex de papéis atualizados de pintura de imagens, conjuntos de dados amplamente usados e kits de ferramentas. Com base nas referências originais, fiz as seguintes modificações para que seus resultados ficassem bonitos nos manuscritos LaTeX
:
- As referências são normalmente construídas na forma de
author-etal-year-nickname
. Particularmente, referências de conjuntos de dados e kits de ferramentas são construídas diretamente como nickname
, por exemplo, imagenet
. - Em cada referência, todos os nomes de conferências/revistas são convertidos em abreviaturas, por exemplo,
Computer Vision and Pattern Recognition -> CVPR
. - A
url
, doi
, publisher
, organization
, editor
, series
em todas as referências são removidas. - As
pages
de todas as referências são adicionadas se estiverem faltando. - Todos os nomes dos artigos estão em letras maiúsculas. Além disso, adicionei um
{}
adicional para garantir que as maiúsculas e minúsculas do título também funcionariam bem em alguns modelos específicos.
Se você tiver outras demandas de formatos de referência, poderá consultar as referências originais dos artigos pesquisando seus nomes no DBLP ou no Google Scholar.
Observação
Observe que as referências na homepage
e na seção topic
podem ser repetidas em reference.bib
. Pessoalmente, recomendo usar "Ctrl+F" / "Command+F"
para pesquisar a referência BibTeX
desejada.
<Voltar ao início>
História das Estrelas
<Voltar ao início>