
Recursos en la intersección de la IA y el arte. Principalmente herramientas y tutoriales, pero también con algunas personas y lugares inspiradores.
Para obtener un recurso más amplio que cubra herramientas de codificación creativa más generales (que quizás desee utilizar con lo que se enumera aquí), consulte terkelg/awesome-creative-coding o thatcreativecode.page. Para obtener recursos sobre IA y aprendizaje profundo en general, consulte ChristosChristofidis/awesome-deep-learning y https://github.com/dair-ai.
Contenido
- Aprendiendo
- Cursos
- Vídeos
- Libros
- Tutoriales y blogs
- Artículos/Métodos
- Modelos de difusión (y texto a imagen)
- Campos de radiación neuronal (y cosas similares a NeRF)
- 3D y nubes de puntos
- Síntesis de imágenes incondicionales
- Síntesis de imágenes condicionales (y problemas inversos)
- Inversión (y edición) de GAN
- Interpretación del espacio latente
- Imagen mate
- Herramientas
- AA creativo
- Aprendizaje profundo
- Tiempos de ejecución/implementación
- texto a imagen
- Codificación creativa
- Difusión estable
- Conjuntos de datos
- Productos/Aplicaciones
- Artistas
- Instituciones/Lugares
- Listas relacionadas
Las entradas en negrita indican mis recursos favoritos para esa sección/subsección (si TENÍA que elegir un solo recurso). Además, cada subsección suele estar ordenada según la especificidad del contenido (la más general aparece primero).
Aprendiendo
Cursos
Aprendizaje profundo general
- Aprendizaje profundo práctico para programadores (fast.ai)
- Aprendizaje profundo (NYU)
- Introducción al aprendizaje profundo (CMU)
- ️ Aprendizaje profundo para visión por computadora (UMich)
- Aprendizaje profundo para visión por computadora (Stanford CS231n)
- Procesamiento del lenguaje natural con aprendizaje profundo (Stanford CS224n)
Modelado generativo profundo
- Modelos generativos profundos (Stanford)
- Aprendizaje profundo no supervisado (UC Berkeley)
- Inferencia diferenciable y modelos generativos (Toronto)
- ️ Síntesis de imágenes basada en el aprendizaje (CMU)
- Aprendizaje de estructura latente discreta (Toronto)
- De las bases del aprendizaje profundo a la difusión estable (fast.ai)
Codificación creativa y nuevos medios
- ️ Aprendizaje profundo para el arte, la estética y la creatividad (MIT)
- Aprendizaje automático para la Web (ITP/NYU)
- Arte y aprendizaje automático (CMU)
- Instalación de nuevos medios: Arte que aprende (CMU)
- Introducción a los medios computacionales (ITP/NYU)
- curso de medios
- Curso de código
Vídeos
- ️ La IA que crea cualquier imagen que quieras, explicada (Vox)
- Creé una red neuronal y traté de enseñarle a reconocer garabatos (Sebastian Lague)
- Serie de redes neuronales (3Blue1Brown)
- Guía para principiantes de aprendizaje automático en JavaScript (tren de codificación)
- Artículos de dos minutos
Libros
- ️ Sumérgete en el aprendizaje profundo (Zhang, Lipton, Li y Smola)
- Aprendizaje profundo (Goodfellow, Bengio y Courville)
- Visión por computadora: algoritmos y aplicaciones (Szeliski)
- Generación de contenido procedimental en juegos (Shaker, Togelius y Nelson)
- Diseño generativo (Benedikt Groß)
Tutoriales y blogs
Aprendizaje profundo
- ️ VQGAN-CLIP: Generación y edición de imágenes de dominio abierto con guía en lenguaje natural (Crowson y Biderman)
- Tutorial sobre Modelos Generativos Profundos (IJCAI-ECAI 2018)
- Tutorial sobre GAN (CVPR 2018)
- Lil'Log (Lilian Weng)
- Destilar [en pausa]
Arte generativo
- ️ Hacer arte generativo con matemáticas simples
- Libro de sombreadores: diseños generativos
- Mike Bostock: Visualización de algoritmos (con charla Eyeo)
- Ejemplos generativos en el procesamiento
- Música Generativa
Artículos/Métodos
Modelos de difusión (y texto a imagen)
- SDEdit: Síntesis y edición de imágenes guiadas con ecuaciones diferenciales estocásticas: artículo anterior a la difusión estable que describe un método para la síntesis y edición de imágenes con modelos basados en difusión.
- GLIDE: Hacia la generación y edición de imágenes fotorrealistas con modelos de difusión guiados por texto
- Síntesis de imágenes de alta resolución con modelos de difusión latente: artículo original que introdujo la difusión estable y lo inició todo.
- Edición de imágenes de solicitud a solicitud con control de atención cruzada: edite las salidas de difusión estable editando la solicitud original.
- Una imagen vale más que una palabra: personalización de la generación de texto a imagen mediante inversión textual: similar a la opción de mensaje a mensaje, pero en su lugar toma una imagen de entrada y una descripción de texto. Algo así como Style Transfer... pero con difusión estable.
- DreamBooth: Ajuste fino de modelos de difusión de texto a imagen para generación basada en sujetos: similar a la inversión textual, pero en cambio se centra en la manipulación de imágenes basadas en sujetos (es decir, esta cosa/persona/etc., pero bajo el agua ).
- Síntesis de nueva vista con modelos de difusión
- AudioGen: Generación de audio guiada textualmente
- Make-A-Video: Generación de texto a video sin datos de texto y video
- Imagic: Edición de imágenes reales basada en texto con modelos de difusión
- MDM: modelo de difusión del movimiento humano
- Difusión blanda: igualación de puntuaciones para la corrupción general
- Personalización de múltiples conceptos de difusión de texto a imagen: como DreamBooth pero capaz de sintetizar múltiples conceptos.
- eDiff-I: modelos de difusión de texto a imagen con un conjunto de eliminadores de ruido expertos
- Aclaración del espacio de diseño de modelos generativos basados en difusión (EDM)
- Abordar el trilema del aprendizaje generativo con GAN de difusión de eliminación de ruido
- Imagen Video: Generación de Video en Alta Definición con Modelos de Difusión
Campos de radiación neuronal (y cosas similares a NeRF)
- Revisión de la estructura a partir del movimiento: trabajo previo sobre modelado disperso (aún necesario/útil para NeRF)
- Selección de vista Pixelwise para estéreo multivista no estructurado: trabajo previo en modelado denso (NeRF reemplaza esto)
- DeepSDF: aprendizaje de funciones de distancia con signo continuo para la representación de formas
- Representación neuronal diferida: síntesis de imágenes mediante texturas neuronales
- Volúmenes neuronales: aprendizaje de volúmenes renderizables dinámicos a partir de imágenes
- ️ NeRF: Representación de escenas como campos de radiación neuronal para síntesis de vistas : el artículo que empezó todo...
- Campos de radiación neuronal para colecciones de fotografías sin restricciones: NeRF en la naturaleza (alternativa a MVS)
- Nerfies: campos de radiación neuronal deformables: NeRF fotorrealista a partir de fotografías y vídeos casuales (como los de un teléfono móvil)
- Mip-NeRF: una representación multiescala para campos de radiación neuronal antialiasing: NeRF... pero MEJOR, MÁS RÁPIDO, MÁS FUERTE
- NeRF supervisado en profundidad: menos vistas y entrenamiento más rápido y gratuito: entrene modelos NeRF más rápido con menos imágenes aprovechando la información de profundidad
- Primitivas de gráficos neuronales instantáneos con codificación hash multiresolución: almacenamiento en caché para que el entrenamiento NeRF sea realmente RÁPIDO
- Comprensión de la guía Pure CLIP para modelos Voxel Grid NeRF: conversión de texto a 3D mediante CLIP
- NeRF-SLAM: SLAM monocular denso en tiempo real con campos de radiación neuronal: NeRF para robots (y automóviles)
- nerf2nerf: Registro por pares de campos de radiación neuronal: NeRF previamente entrenado
- En el que reconstruyeron seres humanos y entornos en 3D en programas de televisión
- ClimateNeRF: representación neuronal basada en la física para la síntesis del clima extremo
- Avatares de cabeza realistas basados en malla de un solo disparo
- Catacáusticas de puntos neuronales para la síntesis de reflejos en una nueva visión
- Momentos 3D de fotografías casi duplicadas
- NeRDi: Síntesis NeRF de vista única con difusión guiada por el lenguaje como imágenes previas generales
3D y nubes de puntos
- DreamFusion: texto a 3D mediante difusión 2D (Google)
- ULIP: Aprendizaje de la representación unificada del lenguaje, la imagen y la nube de puntos para la comprensión 3D (Salesforce)
- Extracción de modelos, materiales e iluminación triangulares 3D a partir de imágenes (NVIDIA)
- GET3D: un modelo generativo de formas texturizadas 3D de alta calidad aprendidas a partir de imágenes (NVIDIA)
- Generación de campo neuronal 3D mediante difusión triplana
- ? MagicPony: Aprendiendo animales articulados en 3D en la naturaleza
- ObjectStitch: composición generativa de objetos (Adobe)
- LADIS: Desenredo de lenguaje para edición de formas 3D (Snap)
- Rodin: un modelo generativo para esculpir avatares digitales 3D mediante difusión (Microsoft)
- SDFusion: finalización, reconstrucción y generación de formas 3D multimodales (instantánea)
- DiffRF: Difusión de campo de radiación 3D guiada por renderizado (Meta)
- Síntesis de vista novedosa con modelos de difusión (Google)
- ️ Magic3D: creación de contenido de texto a 3D de alta resolución (NVIDIA)
Síntesis de imágenes incondicionales
- Muestreo de redes generativas
- Aprendizaje de representación discreta neuronal (VQVAE)
- Crecimiento progresivo de GAN para mejorar la calidad, la estabilidad y la variación
- Una arquitectura generadora basada en estilos para redes generativas adversarias (StyleGAN)
- ️ Análisis y mejora de la calidad de imagen de StyleGAN (StyleGAN2)
- Entrenamiento de redes generativas adversarias con datos limitados (StyleGAN2-ADA)
- Redes adversarias generativas sin alias (StyleGAN3)
- Generación de diversas imágenes de alta fidelidad con VQ-VAE-2
- Domar transformadores para síntesis de imágenes de alta resolución (VQGAN)
- Los modelos de difusión superan a las GAN en la síntesis de imágenes
- StyleNAT: Darle a cada cabeza una nueva perspectiva
- StyleGAN-XL: Escalando StyleGAN a grandes conjuntos de datos diversos
Síntesis de imágenes condicionales (y problemas inversos)
- Traducción de imagen a imagen con redes adversarias condicionales (pix2pix)
- Traducción de imagen a imagen no emparejada utilizando redes adversarias consistentes en ciclos (CycleGAN)
- Síntesis de imágenes de alta resolución y manipulación semántica con GAN condicionales (pix2pixHD)
- Edición semántica de escenas añadiendo, manipulando o borrando objetos (SESAME)
- Síntesis de imágenes semánticas con normalización espacialmente adaptativa (SPADE)
- Solo necesita supervisión adversaria para la síntesis de imágenes semánticas (OASIS)
- Codificación con estilo: un codificador StyleGAN para traducción de imagen a imagen
- Síntesis de imágenes condicionales multimodales con GAN de productos de expertos
- Paleta: Modelos de difusión de imagen a imagen
- Modelos de difusión de texto a imagen guiados por bocetos
- HRDA: segmentación semántica adaptable al dominio de alta resolución y consciente del contexto
- PiPa: aprendizaje autosupervisado por píxeles y parches para la segmentación semántica adaptativa de dominios
- MIC: coherencia de imágenes enmascaradas para una adaptación de dominio mejorada al contexto
- La formación previa es todo lo que necesita para la traducción de imagen a imagen (PITI)
Inversión (y edición) de GAN
- Manipulación visual generativa en la variedad de imágenes naturales (iGAN)
- Inversión GAN en el dominio para edición de imágenes reales
- Image2StyleGAN: ¿Cómo incrustar imágenes en el espacio latente StyleGAN?
- Diseño de un codificador para la manipulación de imágenes StyleGAN
- Ajuste fundamental para la edición basada en latentes de imágenes reales
- ️ HyperStyle: Inversión StyleGAN con HyperNetworks para edición de imágenes reales
- StyleCLIP: manipulación basada en texto de imágenes StyleGAN
- Inversión GAN de alta fidelidad para edición de atributos de imagen
- Intercambio de codificador automático para manipulación de imágenes profundas
- Dibuja tu propia GAN
- Reescritura de reglas geométricas de una GAN
- GAN Anycost para síntesis y edición de imágenes interactivas
- ¿La tercera es la vencida? Edición de imágenes y vídeos con StyleGAN3
Interpretación del espacio latente
- ️ Descubriendo controles GAN interpretables (GANspace)
- Interpretación del espacio latente de GAN para la edición semántica de rostros
- Disección de GAN: visualización y comprensión de redes generativas adversarias
- Extracción no supervisada de direcciones de edición de StyleGAN (CLIP2StyleGAN)
- Ver lo que una GAN no puede generar
Imagen mate
- Estera de imagen profunda
- Matting de fondo: El mundo es tu pantalla verde
- Estera de vídeo robusta
- Estera de imagen semántica
- Estera para retratos que preserva la privacidad
- Mateado de imagen natural automático profundo
- MateFormer
- MODNet: Matizado de retratos sin recortes en tiempo real mediante descomposición objetiva
- ️ Estera humana robusta mediante orientación semántica
Herramientas
Modelado generativo
- NVIDIA Imaginaire: biblioteca de síntesis de imágenes 2D
- NVIDIA Omniverse: La plataforma para crear y operar aplicaciones de metaverso
- mmgeneración
- Modelverse: búsqueda basada en contenido para modelos generativos profundos
- PaddleGAN
AA creativo
- Tensorflow.js
- ml5.js
- Tubo de medios
- ️Magenta
- Wekinador
- ofxComplementos
Marcos de aprendizaje profundo
- ️PyTorch
- Keras
- flujo tensor
- ? Transformadores
- ? Difusores
- jax
- dlib
- Red oscura
Tiempos de ejecución/implementación
- FFCV: un canal de datos optimizado para acelerar la capacitación en aprendizaje automático
- Tiempo de ejecución de ONNX
- DeepSpeed (entrenamiento, inferencia, compresión)
- TensorRT
- Tensorflow Lite
- AntorchaScript
- Servicio de antorcha
- Plantilla AI
Texto a imagen
- ️ Difusión estable
- Imagen
- DALE 2
- VQGAN+CLIP
- partido
- Muse: Generación de texto a imagen a través de transformadores generativos enmascarados: más eficiente que los modelos de difusión o de texto a imagen autorregresivos, se utiliza el modelado de imágenes enmascaradas con transformadores
Difusión estable (SD)
- Dream Studio: servicio oficial alojado en la nube de Stability AI.
- ️ Interfaz de usuario web de difusión estable : una interfaz de usuario fácil de usar para SD con funciones adicionales para facilitar los flujos de trabajo comunes.
- Renderizado AI (Blender): renderiza escenas en Blender usando un mensaje de texto.
- Dream Textures (Blender): Complemento para renderizar texturas, imágenes de referencia y fondos con SD.
- lexica.art - Búsqueda rápida SD.
- koi (Krita): complemento SD para Krita para generación de img2img.
- Alpaca (Photoshop): complemento de Photoshop (beta).
- Complemento de Christian Cantrell (Photoshop): otro complemento de Photoshop.
- Stable Diffusion Studio: Frontend centrado en animación para SD.
- DeepSpeed-MII: inferencia de baja latencia y alto rendimiento para una variedad (más de 20 000) modelos/tareas, incluido SD.
Campos de radiación neuronal
- COLMAP
- ️ nerfstudio
- NVlabs/ngp instantáneo
- NerfAc
Codificación creativa
Marcos
- ️ Procesamiento (Java) y p5.js (Javascript)
- marcos abiertos (C++)
- Ceniza (C++)
- nannou (óxido)
Lenguajes de programación visuales
- vvvv
- ️ Diseñador táctil
- Máx./MSP/Vibración
- Datos puros
Conjuntos de datos
Licencia permisiva/Acceso abierto
- Conjuntos de datos LAION: varios conjuntos de datos de pares de imagen y texto a muy gran escala (principalmente utilizados para entrenar los modelos de difusión estable de código abierto).
- LAION-cara
- Imágenes sin salpicar
- Pixabay
- Pexels
- Imágenes abiertas: Open Images es un conjunto de datos de ~9 millones de imágenes anotadas con etiquetas a nivel de imagen, cuadros delimitadores de objetos, máscaras de segmentación de objetos, relaciones visuales y narrativas localizadas:
- Mozilla Common Voice: 17.127 horas validadas de discurso transcrito que cubre 104 idiomas. Además, muchas de las horas registradas en el conjunto de datos también incluyen metadatos demográficos como edad, sexo y acento que pueden ayudar a mejorar la precisión de los motores de reconocimiento de voz.
- Flickr Commons: Flickr Commons es una colección única de fotografías históricas de más de 100 instituciones culturales de todo el mundo, todas ellas sin restricciones de derechos de autor conocidas.
- Internet Archive: Internet Archive es una biblioteca sin fines de lucro que contiene millones de libros, películas, software, música, sitios web y más de forma gratuita.
- Wikimedia Commons: una colección de 106.323.506 archivos multimedia de libre uso en los que cualquiera puede contribuir.
- Archivos Prelinger
- Programa de contenido abierto de la biblioteca Getty: hacer que las imágenes de las colecciones de Getty estén disponibles gratuitamente para su estudio, enseñanza y disfrute.
- Acceso abierto del Smithsonian
- Revisión de dominio público: centrada en obras que ahora pertenecen al dominio público, los vastos bienes comunes de material sin derechos de autor que todos pueden disfrutar, compartir y aprovechar sin restricciones.
- Biblioteca del Congreso
- Biblioteca del Patrimonio de la Biodiversidad
- El acceso abierto al Met
- La Galería Nacional de Arte de Acceso Abierto
- Acceso abierto del Instituto de Arte de Chicago
- Colecciones de dominio público de la biblioteca pública de Nueva York
- Museo de Arte y Joyería de Hamburgo Steintorplatz
- cara justa
- Leyendas conceptuales
- ¡Rápido, dibuja!
- Abrir imágenes
- Respuesta visual a preguntas
- Flores TensorFlow
- Conjunto de datos de productos en línea de Stanford
- Formas 3d de mente profunda
- PASS: un reemplazo de ImageNet para el entrenamiento previo autosupervisado sin humanos que se puede utilizar para un entrenamiento previo de alta calidad y al mismo tiempo reduce significativamente los problemas de privacidad.
Rostros/Personas (licencias restringidas)
- Rostros etiquetados en la naturaleza (LFW)
- CelebA
- LFWA+
- CelebAMask-HQ
- CelebA-parodia
- UTKcara
- SSHQ: cuerpo completo 1024 x 512px
Otro
Productos/Aplicaciones
- criador de arte
- A mitad del viaje
- DALLE 2 (OpenAI)
- Runway: editor de vídeo impulsado por IA.
- Facet AI: editor de imágenes con tecnología de IA.
- Adobe Sensei: funciones impulsadas por IA para la suite Creative Cloud.
- Demostraciones de IA de NVIDIA
- ClipDrop y limpieza.imágenes
Artistas
Una lista no exhaustiva de personas que hacen cosas interesantes en la intersección del arte, el aprendizaje automático y el diseño.
- Memo Akten
- Bricolaje neuronal (helena sarin)
- Sofía Crespo
- Laura McCarthy
- Philipp Schmitt
- Anna Ridler
- Tom blanco
- Ivona Tau
- Trevor Paglen
- sasha stiles
- Mario Klingemann
- Cerebro Tega
- Mimi Onuoha
- Allison Parrish
- Carolina Sinders
- Robbie Barrat
- kyle mcdonald
- Golán Levin
Instituciones/Lugares
- ESTUDIO para la investigación creativa
- ITP @ Universidad de Nueva York
- Fundación Área Gris para las Artes
- Estabilidad AI (Eleuther, LAION, et al.)
- Orfebres @ Universidad de Londres
- UCLA Diseño Artes multimedia
- Centro Berkeley para nuevos medios
- Artistas de Google y la inteligencia de las máquinas
- Laboratorio creativo de Google
- El laboratorio del Instituto Cultural de Google
- Sony CSL (Tokio y París)
Listas y colecciones relacionadas
- Aprendizaje automático para el arte
- Herramientas y recursos para el arte de la IA (farmacótico): gran lista de cuadernos de Google Colab para técnicas generativas de conversión de texto a imagen, así como herramientas y recursos generales.
- Awesome Generative Deep Art: una lista seleccionada de proyectos, herramientas, obras de arte y modelos de Generative Deep Art/IA generativa
Contribuyendo
¡Las contribuciones son bienvenidas! Lea primero las pautas de contribución.