Recursos na intersecção entre IA e Arte. Principalmente ferramentas e tutoriais, mas também com algumas pessoas e lugares inspiradores incluídos!
Para obter um recurso mais amplo que cobre ferramentas de codificação criativa mais gerais (que você pode querer usar com o que está listado aqui), verifique terkelg/awesome-creative-coding ou thatcreativecode.page. Para recursos sobre IA e aprendizado profundo em geral, confira ChristosChristofidis/awesome-deep-learning e https://github.com/dair-ai.
Conteúdo
- Aprendizado
- Cursos
- Vídeos
- Livros
- Tutoriais e blogs
- Artigos/Métodos
- Modelos de difusão (e texto para imagem)
- Campos de radiação neural (e coisas semelhantes a NeRF)
- 3D e nuvens de pontos
- Síntese de imagem incondicional
- Síntese Condicional de Imagens (e problemas inversos)
- Inversão GAN (e edição)
- Interpretação do Espaço Latente
- Fosqueamento de imagem
- Ferramentas
- ML criativo
- Aprendizado profundo
- Tempos de execução/implantação
- texto para imagem
- Codificação Criativa
- Difusão Estável
- Conjuntos de dados
- Produtos/aplicativos
- Artistas
- Instituições/Locais
- Listas relacionadas
entradas em negrito significam meus recursos favoritos para aquela seção/subseção (se eu tivesse que escolher um único recurso). Além disso, cada subseção é geralmente ordenada por especificidade de conteúdo (a mais geral é listada primeiro).
Aprendizado
Cursos
Aprendizado profundo geral
- Aprendizado profundo prático para programadores (fast.ai)
- Aprendizado profundo (NYU)
- Introdução ao Aprendizado Profundo (CMU)
- ️ Aprendizado profundo para visão computacional (UMich)
- Aprendizado profundo para visão computacional (Stanford CS231n)
- Processamento de linguagem natural com aprendizado profundo (Stanford CS224n)
Modelagem Gerativa Profunda
- Modelos generativos profundos (Stanford)
- Aprendizagem Profunda Não Supervisionada (UC Berkeley)
- Inferência Diferenciável e Modelos Gerativos (Toronto)
- ️ Síntese de Imagens Baseada em Aprendizagem (CMU)
- Aprendendo Estrutura Latente Discreta (Toronto)
- Das fundações de aprendizagem profunda à difusão estável (fast.ai)
Codificação Criativa e Novas Mídias
- ️ Aprendizado profundo para arte, estética e criatividade (MIT)
- Aprendizado de máquina para a Web (ITP/NYU)
- Arte e Aprendizado de Máquina (CMU)
- Instalação de novas mídias: arte que aprende (CMU)
- Introdução à mídia computacional (ITP/NYU)
- Curso de mídia
- Curso de código
Vídeos
- ️ A IA que cria qualquer imagem que você quiser, explicou (Vox)
- Criei uma rede neural e tentei ensiná-la a reconhecer rabiscos (Sebastian Lague)
- Série de redes neurais (3Blue1Brown)
- Guia para iniciantes em aprendizado de máquina em JavaScript (Trem de codificação)
- Artigos de dois minutos
Livros
- ️ Mergulhe no aprendizado profundo (Zhang, Lipton, Li e Smola)
- Aprendizado profundo (Goodfellow, Bengio e Courville)
- Visão Computacional: Algoritmos e Aplicações (Szeliski)
- Geração de conteúdo processual em jogos (Shaker, Togelius e Nelson)
- Design Generativo (Benedikt Groß)
Tutoriais e blogs
Aprendizado profundo
- ️ VQGAN-CLIP: Geração e edição de imagens de domínio aberto com orientação em linguagem natural (Crowson e Biderman)
- Tutorial sobre modelos generativos profundos (IJCAI-ECAI 2018)
- Tutorial sobre GANs (CVPR 2018)
- Lil'Log (Lilian Weng)
- Destilar [em hiato]
Arte Generativa
- ️ Fazendo Arte Generativa com Matemática Simples
- Livro de Shaders: Projetos Gerativos
- Mike Bostock: Visualizando Algoritmos (com palestra Eyeo)
- Exemplos generativos em processamento
- Música Generativa
Artigos/Métodos
Modelos de difusão (e texto para imagem)
- SDEdit: Síntese e edição guiada de imagens com equações diferenciais estocásticas: artigo anterior à difusão estável que descreve um método para síntese e edição de imagens com modelos baseados em difusão.
- GLIDE: Rumo à geração e edição de imagens fotorrealistas com modelos de difusão guiados por texto
- Síntese de imagens de alta resolução com modelos de difusão latente: Artigo original que introduziu a difusão estável e deu início a tudo.
- Edição de imagem prompt a prompt com controle de atenção cruzada: edite saídas de difusão estável editando o prompt original.
- Uma imagem vale uma palavra: Personalizando a geração de texto para imagem usando inversão textual: semelhante ao prompt a prompt, mas em vez disso recebe uma imagem de entrada e uma descrição de texto. Mais ou menos como Style Transfer... mas com difusão estável.
- DreamBooth: Ajuste fino de modelos de difusão de texto para imagem para geração orientada por assunto: semelhante à inversão textual, mas focado na manipulação de imagens baseadas em assunto (ou seja, esta coisa/pessoa/etc., mas subaquática ).
- Síntese de nova visão com modelos de difusão
- AudioGen: geração de áudio guiada textualmente
- Make-A-Video: geração de texto para vídeo sem dados de texto e vídeo
- Imagic: Edição de imagem real baseada em texto com modelos de difusão
- MDM: Modelo de Difusão de Movimento Humano
- Difusão Suave: Correspondência de Pontuação para Corrupções Gerais
- Personalização multiconceito de difusão de texto para imagem: como o DreamBooth, mas capaz de sintetizar vários conceitos.
- eDiff-I: modelos de difusão de texto para imagem com um conjunto de denoisers especializados
- Elucidando o Espaço de Design de Modelos Gerativos Baseados em Difusão (EDM)
- Enfrentando o trilema da aprendizagem generativa com GANs de difusão e remoção de ruído
- Imagen Video: Geração de Vídeo de Alta Definição com Modelos de Difusão
Campos de radiação neural (e coisas semelhantes a NeRF)
- Estrutura do movimento revisitada: trabalho anterior em modelagem esparsa (ainda necessário/útil para NeRF)
- Seleção de visualização Pixelwise para estéreo multivisualização não estruturado: trabalho anterior em modelagem densa (NeRF meio que substitui isso)
- DeepSDF: Aprendendo funções de distância sinalizada contínua para representação de formas
- Renderização Neural Diferida: Síntese de Imagens Usando Texturas Neurais
- Volumes Neurais: Aprendendo Volumes Renderizáveis Dinâmicos a partir de Imagens
- ️ NeRF: Representando Cenas como Campos de Radiância Neural para Síntese de Visualização : O artigo que deu início a tudo...
- Campos de radiação neural para coleções de fotos irrestritas: NeRF na natureza (alternativa ao MVS)
- Nerfies: Campos de radiação neural deformáveis: NeRF fotorrealista de fotos e vídeos casuais (como de um telefone celular)
- Mip-NeRF: uma representação multiescala para campos de radiação neural anti-aliasing: NeRF... mas MELHOR, MAIS RÁPIDO, MAIS FORTE
- NeRF supervisionado em profundidade: menos visualizações e treinamento mais rápido gratuitamente: treine modelos NeRF mais rapidamente com menos imagens, aproveitando informações de profundidade
- Primitivos gráficos neurais instantâneos com codificação hash multiresolução: armazenamento em cache para treinamento NeRF para torná-lo extremamente RÁPIDO
- Compreendendo a orientação Pure CLIP para modelos Voxel Grid NeRF: texto para 3D usando CLIP
- NeRF-SLAM: SLAM monocular denso em tempo real com campos de radiação neural: NeRF para robôs (e carros)
- nerf2nerf: Registro emparelhado de campos de radiação neural: NeRF pré-treinado
- Aquele em que eles reconstruíram humanos e ambientes 3D em programas de TV
- ClimateNeRF: Renderização Neural com Base Física para Síntese Climática Extrema
- Avatares de cabeça realistas baseados em malha
- Catacáustica de pontos neurais para síntese de reflexões de nova visão
- Momentos 3D de fotos quase duplicadas
- NeRDi: Síntese NeRF de visão única com difusão guiada por linguagem como imagens gerais anteriores
3D e nuvens de pontos
- DreamFusion: texto para 3D usando difusão 2D (Google)
- ULIP: Aprendendo representação unificada de linguagem, imagem e nuvem de pontos para compreensão 3D (Salesforce)
- Extraindo modelos 3D triangulares, materiais e iluminação de imagens (NVIDIA)
- GET3D: um modelo generativo de formas texturizadas 3D de alta qualidade aprendidas a partir de imagens (NVIDIA)
- Geração de campo neural 3D usando difusão triplana
- ? MagicPony: aprendendo animais 3D articulados na natureza
- ObjectStitch: composição generativa de objetos (Adobe)
- LADIS: Desembaraço de linguagem para edição de formas 3D (Snap)
- Rodin: um modelo generativo para esculpir avatares digitais 3D usando difusão (Microsoft)
- SDFusion: conclusão, reconstrução e geração de formas 3D multimodais (Snap)
- DiffRF: Difusão de campo radiante 3D guiada por renderização (Meta)
- Síntese de nova visualização com modelos de difusão (Google)
- ️ Magic3D: criação de conteúdo de texto para 3D de alta resolução (NVIDIA)
Síntese de imagem incondicional
- Amostragem de Redes Gerativas
- Aprendizagem de representação discreta neural (VQVAE)
- Crescimento progressivo de GANs para melhor qualidade, estabilidade e variação
- Uma arquitetura geradora baseada em estilo para redes adversárias generativas (StyleGAN)
- ️ Analisando e melhorando a qualidade da imagem do StyleGAN (StyleGAN2)
- Treinamento de redes adversárias generativas com dados limitados (StyleGAN2-ADA)
- Redes Adversariais Gerativas Livres de Alias (StyleGAN3)
- Gerando diversas imagens de alta fidelidade com VQ-VAE-2
- Domando transformadores para síntese de imagens de alta resolução (VQGAN)
- Modelos de difusão superam GANs na síntese de imagens
- StyleNAT: Dando a cada cabeça uma nova perspectiva
- StyleGAN-XL: Dimensionando StyleGAN para grandes conjuntos de dados diversos
Síntese Condicional de Imagens (e problemas inversos)
- Tradução imagem para imagem com redes adversárias condicionais (pix2pix)
- Tradução não pareada de imagem para imagem usando redes adversárias consistentes com ciclo (CycleGAN)
- Síntese de imagens de alta resolução e manipulação semântica com GANs condicionais (pix2pixHD)
- Edição semântica de cenas adicionando, manipulando ou apagando objetos (SESAME)
- Síntese Semântica de Imagens com Normalização Espacialmente Adaptativa (SPADE)
- Você só precisa de supervisão adversária para síntese de imagens semânticas (OASIS)
- Codificação com estilo: um codificador StyleGAN para tradução de imagem para imagem
- Síntese de imagem condicional multimodal com GANs de produtos de especialistas
- Paleta: Modelos de difusão imagem a imagem
- Modelos de difusão de texto para imagem guiados por esboço
- HRDA: segmentação semântica adaptativa de domínio de alta resolução e sensível ao contexto
- PiPa: aprendizagem autosupervisionada baseada em pixels e patches para segmentação semântica adaptativa de domínio
- MIC: Consistência de imagem mascarada para adaptação de domínio aprimorada ao contexto
- O pré-treinamento é tudo que você precisa para a tradução imagem para imagem (PITI)
Inversão GAN (e edição)
- Manipulação visual generativa no coletor de imagens naturais (iGAN)
- Inversão GAN no domínio para edição de imagens reais
- Image2StyleGAN: Como incorporar imagens no espaço latente StyleGAN?
- Projetando um codificador para manipulação de imagem StyleGAN
- Ajuste fundamental para edição de imagens reais com base em latentes
- ️ HyperStyle: Inversão StyleGAN com HyperNetworks para edição de imagens reais
- StyleCLIP: manipulação baseada em texto de imagens StyleGAN
- Inversão GAN de alta fidelidade para edição de atributos de imagem
- Trocando Autoencoder por Manipulação Profunda de Imagens
- Esboce seu próprio GAN
- Reescrevendo regras geométricas de um GAN
- GANs Anycost para síntese e edição de imagens interativas
- Terceira vez é o encanto? Edição de imagem e vídeo com StyleGAN3
Interpretação do Espaço Latente
- ️ Descobrindo controles GAN interpretáveis (GANspace)
- Interpretando o espaço latente de GANs para edição semântica de faces
- Dissecação GAN: Visualizando e Compreendendo Redes Adversariais Gerativas
- Extração não supervisionada de instruções de edição StyleGAN (CLIP2StyleGAN)
- Vendo o que um GAN não pode gerar
Fosqueamento de imagem
- Tapete de imagem profundo
- Tapete de fundo: o mundo é sua tela verde
- Tapete de vídeo robusto
- Fosqueamento Semântico de Imagem
- Tapete de retrato que preserva a privacidade
- Tapete de imagem natural automático profundo
- MatteFormer
- MODNet: Revestimento de retrato sem Trimap em tempo real por meio de decomposição objetiva
- ️ Tapete humano robusto por meio de orientação semântica
Ferramentas
Modelagem Gerativa
- NVIDIA Imaginaire: biblioteca de síntese de imagens 2D
- NVIDIA Omniverse: a plataforma para criar e operar aplicativos metaversos
- mmgeração
- Modelverse: pesquisa baseada em conteúdo para modelos generativos profundos
- RemoGAN
ML criativo
- Tensorflow.js
- ml5.js
- MediaPipe
- ️Magenta
- Wekinator
- ofxAddons
Estruturas de aprendizagem profunda
- ️ PyTorch
- Keras
- Fluxo tensor
- ? Transformadores
- ? Difusores
- JAX
- dlib
- Rede escura
Tempos de execução/implantação
- FFCV: um pipeline de dados otimizado para acelerar o treinamento de ML
- Tempo de execução ONNX
- DeepSpeed (treinamento, inferência, compressão)
- TensorRT
- Tensorflow Lite
- TorchScript
- TorchServe
- Modelo AI
Texto para imagem
- ️ Difusão Estável
- Imagem
- DALLE 2
- VQGAN+CLIP
- Parte
- Muse: Geração de texto para imagem por meio de transformadores generativos mascarados: mais eficiente do que difusão ou modelos autorregressivos de texto para imagem usados modelagem de imagem mascarada com transformadores
Difusão Estável (SD)
- Dream Studio: serviço oficial hospedado em nuvem Stability AI.
- ️ UI de difusão estável da Web : uma interface de usuário amigável para SD com recursos adicionais para facilitar fluxos de trabalho comuns.
- Renderização AI (Blender): Renderize cenas no Blender usando um prompt de texto.
- Dream Textures (Blender): Plugin para renderizar texturas, imagens de referência e fundo com SD.
- lexica.art - Pesquisa de prompt SD.
- koi (Krita): plugin SD para Krita para geração img2img.
- Alpaca (Photoshop): plugin do Photoshop (beta).
- Plugin de Christian Cantrell (Photoshop): Outro plugin do Photoshop.
- Stable Diffusion Studio: Frontend focado em animação para SD.
- DeepSpeed-MII: inferência de baixa latência e alto rendimento para uma variedade (mais de 20.000) modelos/tarefas, incluindo SD.
Campos de Radiância Neural
- COLMAP
- ️ nerfstudio
- NVlabs/instant-ngp
- NerfAcc
Codificação Criativa
Estruturas
- ️ Processamento (Java) e p5.js (Javascript)
- openFrameworks (C++)
- Cinza (C++)
- Nannou (ferrugem)
Linguagens de programação visual
- vvvv
- ️TouchDesigner
- Máx./MSP/Jitter
- Dados Puros
Conjuntos de dados
Acesso permissivamente licenciado/aberto
- Conjuntos de dados LAION: Vários conjuntos de dados de pares de imagem-texto em grande escala (principalmente usados para treinar os modelos de difusão estável de código aberto).
- LAION-Face
- Imagens sem respingos
- Pixabay
- Pexels
- Imagens Abertas: Imagens Abertas é um conjunto de dados de aproximadamente 9 milhões de imagens anotadas com rótulos em nível de imagem, caixas delimitadoras de objetos, máscaras de segmentação de objetos, relacionamentos visuais e narrativas localizadas:
- Mozilla Common Voice: 17.127 horas validadas de fala transcrita abrangendo 104 idiomas. Além disso, muitas das horas registradas no conjunto de dados também incluem metadados demográficos, como idade, sexo e sotaque, que podem ajudar a melhorar a precisão dos mecanismos de reconhecimento de fala.
- Flickr Commons: O Flickr Commons é uma coleção única de fotografias históricas de mais de 100 instituições culturais de todo o mundo, todas sem restrições de direitos autorais conhecidas.
- Internet Archive: Internet Archive é uma biblioteca sem fins lucrativos com milhões de livros, filmes, software, músicas, sites gratuitos e muito mais.
- Wikimedia Commons: uma coleção de 106.323.506 arquivos de mídia de uso gratuito, nos quais qualquer pessoa pode contribuir.
- Arquivos Prelinger
- Programa de Conteúdo Aberto da Biblioteca Getty: Disponibilização gratuita de imagens das coleções do Getty para estudo, ensino e diversão.
- Acesso aberto do Smithsonian
- Revisão de Domínio Público: Focada em obras que agora caíram no domínio público, os vastos bens comuns de material sem direitos autorais que todos são livres para desfrutar, compartilhar e desenvolver sem restrições.
- Biblioteca do Congresso
- Biblioteca do Patrimônio da Biodiversidade
- O acesso aberto do Met
- A Galeria Nacional de Arte de Acesso Aberto
- Acesso aberto do Instituto de Arte de Chicago
- Coleções de domínio público da biblioteca pública de NY
- Museu de Arte e Arte Hamburgo Steintorplatz
- FaceFeira
- Legendas conceituais
- Rápido, desenhe!
- Abrir imagens
- Resposta visual a perguntas
- Flores do TensorFlow
- Conjunto de dados de produtos on-line de Stanford
- Formas 3D DeepMind
- PASS: Um substituto do ImageNet para pré-treinamento autosupervisionado sem humanos, que pode ser usado para pré-treinamento de alta qualidade e, ao mesmo tempo, reduzir significativamente as preocupações com privacidade.
Rostos/Pessoas (licenças restritas)
- Rostos rotulados na natureza (LFW)
- Celebridade
- LFWA+
- CelebAMask-HQ
- CelebA-Spoof
- UTKFace
- SSHQ: corpo inteiro 1024 x 512px
Outro
Produtos/aplicativos
- Criador de arte
- Meio da jornada
- DALLE 2 (OpenAI)
- Runway - editor de vídeo com tecnologia de IA.
- Facet AI - editor de imagens com tecnologia de IA.
- Adobe Sensei – recursos com tecnologia de IA para o pacote Creative Cloud.
- Demonstrações de IA da NVIDIA
- ClipDrop e cleanup.pictures
Artistas
Uma lista não exaustiva de pessoas fazendo coisas interessantes na intersecção entre arte, ML e design.
- Memorando Akten
- Bricolage Neural (helena sarin)
- Sofia Crespo
- Lauren McCarthy
- Filipe Schmitt
- Anna Rider
- Tom Branco
- Ivona Tau
- Trevor Paglen
- Sasha Styles
- Mário Klingemann
- Cérebro Tega
- Mimi Onuoha
- Allison Parrish
- Caroline Sinders
- Robbie Barrat
- Kyle McDonald
- Golan Levin
Instituições/Locais
- ESTÚDIO para consulta criativa
- ITP @ NYU
- Fundação Área Cinzenta para as Artes
- IA de estabilidade (Eleuther, LAION, et al.)
- Ourives na Universidade de Londres
- UCLA Design Media Arts
- Centro de Berkeley para novas mídias
- Artistas do Google e inteligência de máquina
- Laboratório criativo do Google
- O laboratório do Google Cultural Institute
- Sony CSL (Tóquio e Paris)
Listas e coleções relacionadas
- Aprendizado de máquina para arte
- Ferramentas e recursos para arte de IA (farmapsicótico) - Grande lista de notebooks do Google Colab para técnicas generativas de texto em imagem, bem como ferramentas e recursos gerais.
- Awesome Generative Deep Art - Uma lista com curadoria de projetos, ferramentas, obras de arte e modelos de Generative Deep Art / Generative AI
Contribuindo
Contribuições são bem-vindas! Leia as diretrizes de contribuição primeiro.