
Des ressources à l’intersection de l’IA ET de l’Art. Principalement des outils et des tutoriels, mais aussi avec des personnes et des lieux inspirants !
Pour une ressource plus large couvrant des outils de codage créatifs plus généraux (que vous souhaiterez peut-être utiliser avec ce qui est répertorié ici), consultez terkelg/awesome-creative-coding ou thatcreativecode.page. Pour des ressources sur l'IA et l'apprentissage profond en général, consultez ChristosChristofidis/awesome-deep-learning et https://github.com/dair-ai.
Contenu
- Apprentissage
- Cours
- Vidéos
- Livres
- Tutoriels et blogs
- Articles/Méthodes
- Modèles de diffusion (et texte-image)
- Champs de rayonnement neuronal (et choses de type NeRF)
- 3D et nuages de points
- Synthèse d'images inconditionnelle
- Synthèse d'images conditionnelles (et problèmes inverses)
- Inversion GAN (et édition)
- Interprétation de l’espace latent
- Tapis d'image
- Outils
- ML créatif
- Apprentissage profond
- Exécutions/Déploiement
- texte en image
- Codage créatif
- Diffusion stable
- Ensembles de données
- Produits/Applications
- Artistes
- Établissements/Lieux
- Listes associées
les entrées en gras signifient ma ou mes ressources préférées pour cette section/sous-section (si je DEVAIS choisir une seule ressource). De plus, chaque sous-section est généralement classée par spécificité de contenu (la plus générale est répertoriée en premier).
Apprentissage
Cours
Apprentissage profond général
- Apprentissage profond pratique pour les codeurs (fast.ai)
- Apprentissage profond (NYU)
- Introduction à l'apprentissage profond (CMU)
- ️ Deep Learning pour la vision par ordinateur (UMich)
- Apprentissage profond pour la vision par ordinateur (Stanford CS231n)
- Traitement du langage naturel avec apprentissage profond (Stanford CS224n)
Modélisation générative approfondie
- Modèles génératifs profonds (Stanford)
- Apprentissage profond non supervisé (UC Berkeley)
- Inférence différenciable et modèles génératifs (Toronto)
- ️ Synthèse d'images basée sur l'apprentissage (CMU)
- Apprentissage de la structure latente discrète (Toronto)
- Des fondations du Deep Learning à la diffusion stable (fast.ai)
Codage créatif et nouveaux médias
- ️ Deep Learning pour l'art, l'esthétique et la créativité (MIT)
- Apprentissage automatique pour le Web (ITP/NYU)
- Art et apprentissage automatique (CMU)
- Installation de nouveaux médias : l'art qui apprend (CMU)
- Introduction aux médias informatiques (ITP/NYU)
- Cours de médias
- Cours de code
Vidéos
- ️ L'IA qui crée n'importe quelle image que vous voulez, expliquée (Vox)
- J'ai créé un réseau neuronal et j'ai essayé de lui apprendre à reconnaître les gribouillis (Sebastian Lague)
- Série de réseaux neuronaux (3Blue1Brown)
- Guide du débutant sur l'apprentissage automatique en JavaScript (Coding Train)
- Documents de deux minutes
Livres
- ️ Plongez dans le Deep Learning (Zhang, Lipton, Li et Smola)
- Apprentissage profond (Goodfellow, Bengio et Courville)
- Vision par ordinateur : algorithmes et applications (Szeliski)
- Génération de contenu procédural dans les jeux (Shaker, Togelius et Nelson)
- Conception générative (Benedikt Groß)
Tutoriels et blogs
Apprentissage profond
- ️ VQGAN-CLIP : génération et édition d'images de domaine ouvert avec guidage en langage naturel (Crowson et Biderman)
- Tutoriel sur les modèles génératifs profonds (IJCAI-ECAI 2018)
- Tutoriel sur les GAN (CVPR 2018)
- Lil'Log (Lilian Weng)
- Distiller [en pause]
Art Génératif
- ️ Créer de l'art génératif avec des mathématiques simples
- Book of Shaders : conceptions génératives
- Mike Bostock : Visualisation d'algorithmes (avec Eyeo talk)
- Exemples génératifs en traitement
- Musique Générative
Articles/Méthodes
Modèles de diffusion (et texte-image)
- SDEdit : Synthèse et édition d'images guidées avec des équations différentielles stochastiques : article antérieur à Stable Diffusion décrivant une méthode de synthèse et d'édition d'images avec des modèles basés sur la diffusion.
- GLIDE : vers la génération et l'édition d'images photoréalistes avec des modèles de diffusion guidés par texte
- Synthèse d'images haute résolution avec des modèles de diffusion latente : article original qui a introduit la diffusion stable et a tout déclenché.
- Édition d'images d'invite à invite avec contrôle d'attention croisée : modifiez les sorties de diffusion stable en modifiant l'invite d'origine.
- Une image vaut un mot : personnalisation de la génération texte-image à l'aide de l'inversion textuelle : similaire à l'invite à invite, mais prend à la place une image d'entrée et une description textuelle. Un peu comme Style Transfer... mais avec une diffusion stable.
- DreamBooth : Affiner les modèles de diffusion texte-image pour la génération axée sur le sujet : similaire à l'inversion textuelle, mais plutôt axé sur la manipulation d'images basées sur le sujet (c'est-à-dire cette chose/personne/etc. mais sous l'eau ).
- Nouvelle synthèse de vues avec des modèles de diffusion
- AudioGen : génération audio guidée par texte
- Make-A-Video : génération de texte en vidéo sans données texte-vidéo
- Imagic : édition d'images réelles basée sur du texte avec des modèles de diffusion
- MDM : modèle de diffusion du mouvement humain
- Diffusion douce : correspondance des scores pour les corruptions générales
- Personnalisation multi-concept de la diffusion texte-image : comme DreamBooth mais capable de synthétiser plusieurs concepts.
- eDiff-I : modèles de diffusion texte-image avec un ensemble de débruiteurs experts
- Élucider l'espace de conception des modèles génératifs basés sur la diffusion (EDM)
- S'attaquer au trilemme de l'apprentissage génératif avec les GAN de diffusion de débruitage
- Imagen Video : Génération de vidéo haute définition avec des modèles de diffusion
Champs de rayonnement neuronal (et choses de type NeRF)
- Structure-from-Motion Revisited : travaux antérieurs sur la modélisation clairsemée (toujours nécessaire/utile pour NeRF)
- Sélection de vue Pixelwise pour la stéréo multi-vue non structurée : travaux antérieurs sur la modélisation dense (NeRF remplace en quelque sorte cela)
- DeepSDF : apprentissage des fonctions de distance signée continue pour la représentation de forme
- Rendu neuronal différé : synthèse d'images à l'aide de textures neuronales
- Volumes neuronaux : apprendre des volumes rendus dynamiquement à partir d'images
- ️ NeRF : Représenter des scènes sous forme de champs de radiance neuronale pour la synthèse de vues : L'article qui a tout déclenché...
- Champs de rayonnement neuronal pour des collections de photos sans contraintes : NeRF à l'état sauvage (alternative au MVS)
- Nerfies : Champs de rayonnement neuronal déformables : NeRF photoréaliste à partir de photos et de vidéos occasionnelles dans la nature (comme celles d'un téléphone portable)
- Mip-NeRF : une représentation multi-échelle pour les champs de rayonnement neuronal anti-aliasing : NeRF... mais MIEUX, PLUS RAPIDE, PLUS DUR, PLUS FORT
- NeRF supervisé en profondeur : moins de vues et une formation plus rapide et gratuite : entraînez les modèles NeRF plus rapidement avec moins d'images en exploitant les informations de profondeur
- Primitives de graphiques neuronaux instantanés avec un codage de hachage multirésolution : mise en cache pour la formation NeRF pour la rendre vraiment RAPIDE
- Comprendre le guidage Pure CLIP pour les modèles NeRF à grille voxel : texte en 3D à l'aide de CLIP
- NeRF-SLAM : SLAM monoculaire dense en temps réel avec champs de rayonnement neuronal : NeRF pour les robots (et les voitures)
- nerf2nerf : enregistrement par paire des champs de rayonnement neuronal : NeRF pré-entraîné
- Celui où ils ont reconstruit des humains et des environnements en 3D dans des émissions de télévision
- ClimateNeRF : rendu neuronal basé sur la physique pour la synthèse climatique extrême
- Avatars de tête réalistes à base de maillage one-shot
- Catacaustique des points neuronaux pour la synthèse des réflexions selon une nouvelle vision
- Moments 3D à partir de photos quasi-dupliquées
- NeRDi : synthèse NeRF à vue unique avec diffusion guidée par le langage comme images préalables générales
3D et nuages de points
- DreamFusion : Text-to-3D utilisant la diffusion 2D (Google)
- ULIP : Apprentissage de la représentation unifiée du langage, de l'image et du nuage de points pour la compréhension de la 3D (Salesforce)
- Extraction de modèles 3D triangulaires, de matériaux et d'éclairage à partir d'images (NVIDIA)
- GET3D : un modèle génératif de formes texturées 3D de haute qualité tirées d'images (NVIDIA)
- Génération de champ neuronal 3D à l'aide de la diffusion triplan
- ? MagicPony : apprendre les animaux 3D articulés dans la nature
- ObjectStitch : composition d'objets génératifs (Adobe)
- LADIS : démêlage du langage pour l'édition de formes 3D (Snap)
- Rodin : un modèle génératif pour sculpter des avatars numériques 3D par diffusion (Microsoft)
- SDFusion : complétion, reconstruction et génération de formes 3D multimodales (Snap)
- DiffRF : diffusion de champ de rayonnement 3D guidée par le rendu (méta)
- Nouvelle synthèse de vues avec des modèles de diffusion (Google)
- ️ Magic3D : création de contenu texte en 3D haute résolution (NVIDIA)
Synthèse d'images inconditionnelle
- Échantillonnage de réseaux génératifs
- Apprentissage par représentation neuronale discrète (VQVAE)
- Croissance progressive des GAN pour une qualité, une stabilité et une variation améliorées
- Une architecture de générateur basée sur le style pour les réseaux adverses génératifs (StyleGAN)
- ️ Analyse et amélioration de la qualité d'image de StyleGAN (StyleGAN2)
- Formation de réseaux adverses génératifs avec des données limitées (StyleGAN2-ADA)
- Réseaux contradictoires génératifs sans alias (StyleGAN3)
- Génération de diverses images haute fidélité avec VQ-VAE-2
- Apprivoiser les transformateurs pour la synthèse d’images haute résolution (VQGAN)
- Les modèles de diffusion battent les GAN sur la synthèse d'images
- StyleNAT : donner à chaque tête une nouvelle perspective
- StyleGAN-XL : mise à l'échelle de StyleGAN vers de grands ensembles de données divers
Synthèse d'images conditionnelles (et problèmes inverses)
- Traduction image à image avec des réseaux contradictoires conditionnels (pix2pix)
- Traduction d'image à image non appariée à l'aide de réseaux contradictoires cohérents avec le cycle (CycleGAN)
- Synthèse d'images haute résolution et manipulation sémantique avec des GAN conditionnels (pix2pixHD)
- Édition sémantique de scènes par ajout, manipulation ou effacement d'objets (SESAME)
- Synthèse d'images sémantiques avec normalisation spatialement adaptative (SPADE)
- Vous n’avez besoin que d’une supervision contradictoire pour la synthèse d’images sémantiques (OASIS)
- Encodage avec style : un encodeur StyleGAN pour la traduction d'image à image
- Synthèse d'images conditionnelles multimodales avec des GAN produits d'experts
- Palette : Modèles de diffusion image à image
- Modèles de diffusion texte-image guidés par esquisse
- HRDA : segmentation sémantique adaptative au domaine haute résolution et contextuelle
- PiPa : apprentissage auto-supervisé par pixels et par correctifs pour la segmentation sémantique adaptative de domaine
- MIC : cohérence des images masquées pour une adaptation de domaine améliorée par le contexte
- La pré-formation est tout ce dont vous avez besoin pour la traduction d'image à image (PITI)
Inversion GAN (et édition)
- Manipulation visuelle générative sur le collecteur d'images naturelles (iGAN)
- Inversion GAN dans le domaine pour l'édition d'images réelles
- Image2StyleGAN : Comment intégrer des images dans l'espace latent StyleGAN ?
- Conception d'un encodeur pour la manipulation d'images StyleGAN
- Réglage pivot pour l'édition latente d'images réelles
- ️ HyperStyle : Inversion StyleGAN avec HyperNetworks pour l'édition d'images réelles
- StyleCLIP : Manipulation basée sur le texte des images StyleGAN
- Inversion GAN haute fidélité pour l'édition d'attributs d'image
- Remplacement de l'encodeur automatique pour une manipulation d'image approfondie
- Esquissez votre propre GAN
- Réécriture des règles géométriques d'un GAN
- GAN Anycost pour la synthèse et l'édition d'images interactives
- La troisième fois est-elle la bonne ? Édition d'images et de vidéos avec StyleGAN3
Interprétation de l’espace latent
- ️ Découverte des contrôles GAN interprétables (GANspace)
- Interprétation de l'espace latent des GAN pour l'édition sémantique du visage
- Dissection du GAN : visualiser et comprendre les réseaux contradictoires génératifs
- Extraction non supervisée des directions d'édition StyleGAN (CLIP2StyleGAN)
- Voir ce qu'un GAN ne peut pas générer
Tapis d'image
- Tapis d'image profond
- Tapis de fond : le monde est votre écran vert
- Tapis vidéo robuste
- Matting d’images sémantiques
- Tapis de portrait préservant la confidentialité
- Tapis d'image naturel automatique et profond
- MatteAncien
- MODNet : Mattage de portrait sans Trimap en temps réel via décomposition objective
- ️ Tapis humain robuste via un guidage sémantique
Outils
Modélisation générative
- NVIDIA Imaginaire : bibliothèque de synthèse d'images 2D
- NVIDIA Omniverse : la plateforme de création et d'exploitation d'applications métaverse
- mmgénération
- Modelverse : recherche basée sur le contenu pour des modèles génératifs approfondis
- PagaieGAN
ML créatif
- Tensorflow.js
- ml5.js
- MédiaPipe
- ️Magenta
- Wekinateur
- dexAddons
Cadres d'apprentissage profond
- ️PyTorch
- Kéras
- Flux tensoriel
- ? Transformateurs
- ? Diffuseurs
- JAX
- dlib
- Réseau sombre
Exécutions/Déploiement
- FFCV : un pipeline de données optimisé pour accélérer la formation en ML
- Exécution ONNX
- DeepSpeed (entraînement, inférence, compression)
- TensorRT
- Tensorflow Lite
- TorchScript
- TorcheServir
- Modèle AI
Texte en image
- ️ Diffusion stable
- Image
- DALLE 2
- VQGAN+CLIP
- Parti
- Muse : génération de texte en image via des transformateurs génératifs masqués : plus efficace que les modèles de diffusion ou de texte en image autorégressifs utilisant une modélisation d'image masquée avec transformateurs
Diffusion stable (SD)
- Dream Studio : service hébergé dans le cloud officiel de Stability AI.
- ️ Interface Web de diffusion stable : une interface utilisateur conviviale pour SD avec des fonctionnalités supplémentaires pour faciliter les flux de travail courants.
- Rendu AI (Blender) : effectuez le rendu des scènes dans Blender à l'aide d'une invite de texte.
- Dream Textures (Blender) : Plugin pour restituer des textures, des images de référence et un arrière-plan avec SD.
- lexica.art - Recherche rapide SD.
- koi (Krita) : plugin SD pour Krita pour la génération img2img.
- Alpaca (Photoshop) : plugin Photoshop (bêta).
- Plugin de Christian Cantrell (Photoshop) : Un autre plugin Photoshop.
- Stable Diffusion Studio : interface axée sur l'animation pour SD.
- DeepSpeed-MII : inférence à faible latence et à haut débit pour une variété (plus de 20 000) modèles/tâches, y compris SD.
Champs de rayonnement neuronal
- COLMAP
- ️ nerfstudio
- NVlabs/instant-ngp
- NerfAcc
Codage créatif
Cadres
- ️ Traitement (Java) et p5.js (Javascript)
- openFrameworks (C++)
- Cendre (C++)
- nannou (Rouille)
Langages de programmation visuelle
- vvvv
- ️ TouchDesigner
- Max/MSP/Jitter
- Données pures
Ensembles de données
Licence permissive/accès libre
- Ensembles de données LAION : divers ensembles de données de paires image-texte à très grande échelle (notamment utilisés pour entraîner les modèles open source de diffusion stable).
- LAION-Visage
- Supprimer les images
- Pixabay
- Pixels
- Images ouvertes : Open Images est un ensemble de données d'environ 9 millions d'images annotées avec des étiquettes au niveau de l'image, des cadres de délimitation d'objets, des masques de segmentation d'objets, des relations visuelles et des récits localisés :
- Mozilla Common Voice : 17 127 heures validées de discours transcrit couvrant 104 langues. De plus, de nombreuses heures enregistrées dans l'ensemble de données incluent également des métadonnées démographiques telles que l'âge, le sexe et l'accent qui peuvent contribuer à améliorer la précision des moteurs de reconnaissance vocale.
- Flickr Commons : Flickr Commons est une collection unique de photographies historiques provenant de plus de 100 institutions culturelles du monde entier, toutes sans restrictions de droits d'auteur connues.
- Internet Archive : Internet Archive est une bibliothèque à but non lucratif contenant des millions de livres, films, logiciels, musiques, sites Web gratuits et bien plus encore.
- Wikimedia Commons : une collection de 106 323 506 fichiers multimédias librement utilisables auxquels chacun peut contribuer.
- Archives de Prélinger
- Programme de contenu ouvert de la bibliothèque Getty : rendre les images des collections de Getty disponibles gratuitement pour l'étude, l'enseignement et le plaisir.
- Accès libre du Smithsonian
- Examen du domaine public : axé sur les œuvres désormais tombées dans le domaine public, le vaste ensemble de matériels non protégés par le droit d'auteur que chacun est libre d'apprécier, de partager et de développer sans restrictions.
- Bibliothèque du Congrès
- Bibliothèque du patrimoine de la biodiversité
- Le Met en libre accès
- La Galerie nationale d'art en libre accès
- Accès libre à l'Institut d'art de Chicago
- Collections du domaine public de la bibliothèque publique de New York
- Musée d'art et d'art de Hambourg Steintorplatz
- Visage juste
- Légendes conceptuelles
- Vite, dessine !
- Images ouvertes
- Réponse visuelle aux questions
- Fleurs TensorFlow
- Ensemble de données des produits Stanford Online
- Formes 3D DeepMind
- PASS : un remplacement ImageNet pour la pré-formation auto-supervisée sans humains qui peut être utilisé pour une pré-formation de haute qualité tout en réduisant considérablement les problèmes de confidentialité.
Visages/Personnes (licences restreintes)
- Visages étiquetés dans la nature (LFW)
- Célébrité
- SOFT+
- CelebAMask-HQ
- CelebA-Spoof
- UTKVisage
- SSHQ : corps entier 1024 x 512px
Autre
Produits/Applications
- Éleveur d'art
- À mi-parcours
- DALLE 2 (OpenAI)
- Runway - Éditeur vidéo alimenté par l'IA.
- Facet AI - Éditeur d'images alimenté par l'IA.
- Adobe Sensei - Fonctionnalités basées sur l'IA pour la suite Creative Cloud.
- Démos NVIDIA IA
- ClipDrop et cleanup.images
Artistes
Une liste non exhaustive de personnes faisant des choses intéressantes à l'intersection de l'art, du ML et du design.
- Mémo Akten
- Neural Bricolage (helena sarin)
- Sofia Crespo
- Lauren McCarthy
- Philipp Schmitt
- Anna Ridler
- Tom Blanc
- Ivona Tau
- Trevor Paglen
- Sasha Stiles
- Mario Klingemann
- Cerveau Tega
- Mimi Onuoha
- Allison Parrish
- Caroline Sinders
- Robbie Barrat
- Kyle McDonald
- Golan Lévine
Établissements/Lieux
- STUDIO pour l'enquête créative
- ITP à NYU
- Fondation Zone Grise pour les Arts
- IA de stabilité (Eleuther, LAION, et al.)
- Orfèvres à l'Université de Londres
- UCLA Design Arts médiatiques
- Centre de Berkeley pour les nouveaux médias
- Google Artists et intelligence artificielle
- Laboratoire de création Google
- Le laboratoire de l'Institut culturel de Google
- Sony CSL (Tokyo et Paris)
Listes et collections associées
- Apprentissage automatique pour l'art
- Outils et ressources pour l'IA Art (pharmapsychotique) - Grande liste de blocs-notes Google Colab pour les techniques de synthèse texte-image génératives ainsi que des outils et ressources généraux.
- Awesome Generative Deep Art - Une liste organisée de projets, d'outils, d'œuvres d'art et de modèles Generative Deep Art / Generative AI
Contribuer
Les contributions sont les bienvenues ! Lisez d’abord les directives de contribution.