Sumber daya di persimpangan AI DAN Seni. Terutama alat dan tutorial tetapi juga dengan beberapa orang dan tempat yang menginspirasi juga!
Untuk sumber daya yang lebih luas yang mencakup alat pengkodean materi iklan yang lebih umum (yang mungkin ingin Anda gunakan dengan apa yang tercantum di sini), lihat terkelg/awesome-creative-coding atau thatcreativecode.page. Untuk sumber daya tentang AI dan pembelajaran mendalam secara umum, lihat ChristosChristofidis/awesome-deep-learning dan https://github.com/dair-ai.
Isi
- Sedang belajar
- Kursus
- Video
- Buku
- Tutorial dan Blog
- Makalah/Metode
- Model difusi (dan teks-ke-gambar)
- Bidang Neural Radiance (dan hal-hal seperti NeRF)
- 3D dan titik awan
- Sintesis Gambar Tanpa Syarat
- Sintesis Gambar Bersyarat (dan masalah invers)
- Inversi GAN (dan pengeditan)
- Interpretasi Ruang Laten
- Anyaman Gambar
- Peralatan
- ML Kreatif
- Pembelajaran Mendalam
- Waktu Proses/Penerapan
- teks-ke-gambar
- Pengkodean Kreatif
- Difusi Stabil
- Kumpulan data
- Produk/Aplikasi
- Artis
- Institusi/Tempat
- Daftar Terkait
entri yang dicetak tebal menandakan sumber daya favorit saya untuk bagian/subbagian tersebut (jika saya HARUS memilih satu sumber daya). Selain itu, setiap subbagian biasanya diurutkan berdasarkan kekhususan konten (yang paling umum dicantumkan terlebih dahulu).
Sedang belajar
Kursus
Pembelajaran Mendalam Umum
- Pembelajaran Mendalam Praktis untuk Pembuat Kode (fast.ai)
- Pembelajaran Mendalam (NYU)
- Pengantar Pembelajaran Mendalam (CMU)
- ️ Pembelajaran Mendalam untuk Computer Vision (UMich)
- Pembelajaran Mendalam untuk Computer Vision (Stanford CS231n)
- Pemrosesan Bahasa Alami dengan Pembelajaran Mendalam (Stanford CS224n)
Pemodelan Generatif Mendalam
- Model Generatif Mendalam (Stanford)
- Pembelajaran Mendalam Tanpa Pengawasan (UC Berkeley)
- Inferensi Terdiferensiasi dan Model Generatif (Toronto)
- ️ Sintesis Gambar Berbasis Pembelajaran (CMU)
- Mempelajari Struktur Laten Diskrit (Toronto)
- Dari Landasan Pembelajaran Mendalam hingga Difusi Stabil (fast.ai)
Pengkodean Kreatif dan Media Baru
- ️ Pembelajaran Mendalam untuk Seni, Estetika, dan Kreativitas (MIT)
- Pembelajaran Mesin untuk Web (ITP/NYU)
- Pembelajaran Seni dan Mesin (CMU)
- Instalasi Media Baru: Seni yang Belajar (CMU)
- Pengantar Media Komputasi (ITP/NYU)
Video
- ️ AI yang menciptakan gambar apa pun yang Anda inginkan, jelasnya (Vox)
- Saya Membuat Jaringan Neural dan Mencoba Mengajarkannya untuk Mengenali Doodle (Sebastian Lague)
- Seri Jaringan Neural (3Blue1Brown)
- Panduan Pemula untuk Pembelajaran Mesin dalam JavaScript (Coding Train)
- Makalah Dua Menit
Buku
- ️ Selami Pembelajaran Mendalam (Zhang, Lipton, Li, dan Smola)
- Pembelajaran Mendalam (Goodfellow, Bengio, dan Courville)
- Computer Vision: Algoritma dan Aplikasi (Szeliski)
- Pembuatan Konten Prosedural dalam Game (Shaker, Togelius, dan Nelson)
- Desain Generatif (Benedikt Groß)
Tutorial dan Blog
Pembelajaran Mendalam
- ️ VQGAN-CLIP: Pembuatan dan Pengeditan Gambar Domain Terbuka dengan Panduan Bahasa Alami (Crowson dan Biderman)
- Tutorial Model Deep Generatif (IJCAI-ECAI 2018)
- Tutorial tentang GAN (CVPR 2018)
- Lil'Log (Lilian Weng)
- Saring [sedang jeda]
Seni Generatif
- ️ Membuat Seni Generatif dengan Matematika Sederhana
- Book of Shaders: Desain Generatif
- Mike Bostock: Memvisualisasikan Algoritma (dengan Eyeo talk)
- Contoh Generatif dalam Pemrosesan
- Musik Generatif
Makalah/Metode
Model difusi (dan teks-ke-gambar)
- SDEdit: Sintesis dan Pengeditan Gambar Terpandu dengan Persamaan Diferensial Stokastik: Makalah sebelum Difusi Stabil menjelaskan metode sintesis dan pengeditan gambar dengan model berbasis difusi.
- GLIDE: Menuju Pembuatan dan Pengeditan Gambar Fotorealistik dengan Model Difusi Terpandu Teks
- Sintesis Gambar Resolusi Tinggi dengan Model Difusi Laten: Makalah asli yang memperkenalkan Difusi Stabil dan memulai semuanya.
- Pengeditan Gambar Prompt-to-Prompt dengan Kontrol Cross-Attention: Edit output Difusi Stabil dengan mengedit prompt asli.
- Sebuah Gambar Bernilai Satu Kata: Personalisasi Pembuatan Teks-ke-Gambar menggunakan Inversi Tekstual: Mirip dengan prompt-to-prompt tetapi menggunakan gambar masukan dan deskripsi teks. Mirip seperti Style Transfer... tetapi dengan difusi stabil.
- DreamBooth: Penyempurnaan Model Difusi Teks-ke-Gambar untuk Pembuatan Berbasis Subjek: Mirip dengan Inversi Tekstual tetapi berfokus pada manipulasi gambar berdasarkan subjek (yaitu benda/orang/dll. tetapi di bawah air ).
- Sintesis Tampilan Novel dengan Model Difusi
- AudioGen: Pembuatan Audio yang Dipandu Secara Tekstual
- Make-A-Video: Pembuatan Teks-ke-Video tanpa Data Teks-Video
- Imagic: Pengeditan Gambar Nyata Berbasis Teks dengan Model Difusi
- MDM: Model Difusi Gerak Manusia
- Difusi Lembut: Pencocokan Skor untuk Korupsi Umum
- Kustomisasi Multi-Konsep Difusi Teks-ke-Gambar: Seperti DreamBooth tetapi mampu mensintesis banyak konsep.
- eDiff-I: Model Difusi Teks-ke-Gambar dengan Kumpulan Ahli Denoiser
- Menjelaskan Ruang Desain Model Generatif Berbasis Difusi (EDM)
- Mengatasi Trilema Pembelajaran Generatif dengan Menolak Difusi GAN
- Video Gambar: Pembuatan Video Definisi Tinggi dengan Model Difusi
Bidang Neural Radiance (dan hal-hal seperti NeRF)
- Structure-from-Motion Revisited: pekerjaan sebelumnya pada pemodelan sparse (masih diperlukan/berguna untuk NeRF)
- Pilihan Tampilan Piksel untuk Stereo Multi-Tampilan Tidak Terstruktur: pekerjaan sebelumnya pada pemodelan padat (NeRF menggantikan ini)
- DeepSDF: Mempelajari Fungsi Jarak Bertanda Berkelanjutan untuk Representasi Bentuk
- Rendering Neural yang Ditunda: Sintesis Gambar menggunakan Tekstur Neural
- Volume Neural: Mempelajari Volume Dinamis yang Dapat Dirender dari Gambar
- ️ NeRF: Mewakili Pemandangan sebagai Bidang Cahaya Neural untuk Sintesis Tampilan : Makalah yang memulai semuanya...
- Neural Radiance Fields untuk Koleksi Foto Tanpa Batasan: NeRF di alam liar (alternatif dari MVS)
- Nerfies: Bidang Cahaya Neural yang Dapat Berubah Bentuk: NeRF Fotorealistik dari foto dan video biasa di alam liar (seperti dari ponsel)
- Mip-NeRF: Representasi Multiskala untuk Bidang Cahaya Neural Anti-Aliasing: NeRF... tapi LEBIH BAIK LEBIH CEPAT LEBIH KERAS LEBIH KUAT
- NeRF yang diawasi secara mendalam: Tampilan Lebih Sedikit dan Pelatihan Lebih Cepat Gratis: Latih model NeRF lebih cepat dengan lebih sedikit gambar dengan memanfaatkan informasi kedalaman
- Primitif Grafik Neural Instan dengan Pengkodean Hash Multiresolusi: menyimpan cache untuk pelatihan NeRF agar menjadi CEPAT
- Memahami Panduan CLIP Murni untuk Model Voxel Grid NeRF: teks-ke-3D menggunakan CLIP
- NeRF-SLAM: SLAM Monokuler Padat Real-Time dengan Neural Radiance Fields: NeRF untuk robot (dan mobil)
- nerf2nerf: Pendaftaran Bidang Cahaya Neural Berpasangan: NeRF yang telah dilatih sebelumnya
- Tempat Mereka Merekonstruksi Manusia dan Lingkungan 3D di Acara TV
- ClimateNeRF: Rendering Neural Berbasis Fisik untuk Sintesis Iklim Ekstrim
- Avatar kepala berbasis mesh satu-shot yang realistis
- Katakaustik Titik Neural untuk Sintesis Refleksi Tampilan Novel
- Momen 3D dari Foto yang Hampir Duplikat
- NeRDi: Sintesis NeRF Tampilan Tunggal dengan Difusi Terpandu Bahasa sebagai Prioritas Gambar Umum
3D dan titik awan
- DreamFusion: Teks-ke-3D menggunakan Difusi 2D (Google)
- ULIP: Mempelajari Representasi Terpadu Bahasa, Gambar, dan Point Cloud untuk Pemahaman 3D (Salesforce)
- Mengekstraksi Model 3D Segitiga, Material, dan Pencahayaan Dari Gambar (NVIDIA)
- GET3D: Model Generatif Bentuk Bertekstur 3D Berkualitas Tinggi yang Dipelajari dari Gambar (NVIDIA)
- Pembuatan Bidang Neural 3D menggunakan Difusi Triplane
- ? MagicPony: Mempelajari Hewan 3D Artikulasi di Alam Liar
- ObjectStitch: Pengomposisian Objek Generatif (Adobe)
- LADIS: Penguraian Bahasa untuk Pengeditan Bentuk 3D (Jepret)
- Rodin: Model Generatif untuk Memahat Avatar Digital 3D Menggunakan Difusi (Microsoft)
- SDFusion: Penyelesaian, Rekonstruksi, dan Pembuatan Bentuk 3D Multimodal (Jepret)
- DiffRF: Difusi Bidang Cahaya 3D (Meta) yang dipandu rendering
- Sintesis Tampilan Novel dengan Model Difusi (Google)
- ️ Magic3D: Pembuatan Konten Teks-ke-3D Resolusi Tinggi (NVIDIA)
Sintesis Gambar Tanpa Syarat
- Pengambilan Sampel Jaringan Generatif
- Pembelajaran Representasi Diskrit Neural (VQVAE)
- Pertumbuhan GAN yang Progresif untuk Peningkatan Kualitas, Stabilitas, dan Variasi
- Arsitektur Generator Berbasis Gaya untuk Jaringan Adversarial Generatif (StyleGAN)
- ️ Menganalisis dan Meningkatkan Kualitas Gambar StyleGAN (StyleGAN2)
- Melatih Jaringan Adversarial Generatif dengan Data Terbatas (StyleGAN2-ADA)
- Jaringan Adversarial Generatif Bebas Alias (StyleGAN3)
- Menghasilkan Beragam Gambar Fidelitas Tinggi dengan VQ-VAE-2
- Menjinakkan Transformers untuk Sintesis Gambar Resolusi Tinggi (VQGAN)
- Model Difusi Mengalahkan GAN dalam Sintesis Gambar
- StyleNAT: Memberi Setiap Kepala Perspektif Baru
- StyleGAN-XL: Menskalakan StyleGAN ke Kumpulan Data Besar yang Beragam
Sintesis Gambar Bersyarat (dan masalah invers)
- Terjemahan Gambar-ke-Gambar dengan Jaring Adversarial Bersyarat (pix2pix)
- Terjemahan Gambar-ke-Gambar Tidak Berpasangan menggunakan Cycle-Consistent Adversarial Networks (CycleGAN)
- Sintesis Gambar Resolusi Tinggi dan Manipulasi Semantik dengan GAN Bersyarat (pix2pixHD)
- Pengeditan Adegan Semantik dengan Menambah, Memanipulasi, atau Menghapus Objek (SESAME)
- Sintesis Gambar Semantik dengan Normalisasi Spasial-Adaptif (SPADE)
- Anda Hanya Membutuhkan Pengawasan Adversarial untuk Sintesis Gambar Semantik (OASIS)
- Pengkodean dalam Gaya: Encoder StyleGAN untuk Terjemahan Gambar-ke-Gambar
- Sintesis Gambar Bersyarat Multimodal dengan GAN Produk Pakar
- Palet: Model Difusi Gambar-ke-Gambar
- Model Difusi Teks-ke-Gambar yang Dipandu Sketsa
- HRDA: Segmentasi Semantik Adaptif Domain Resolusi Tinggi Sadar Konteks
- PiPa: Pembelajaran Mandiri dengan Piksel dan Patch untuk Segmentasi Semantik Adaptif Domain
- MIC: Konsistensi Gambar Terselubung untuk Adaptasi Domain yang Ditingkatkan Konteks
- Pra-pelatihan adalah Semua yang Anda Butuhkan untuk Penerjemahan Gambar-ke-Gambar (PITI)
Inversi GAN (dan pengeditan)
- Manipulasi Visual Generatif pada Natural Image Manifold (iGAN)
- Inversi GAN Dalam Domain untuk Pengeditan Gambar Nyata
- Image2StyleGAN: Bagaimana Cara Menyematkan Gambar ke Ruang Laten StyleGAN?
- Merancang Encoder untuk Manipulasi Gambar StyleGAN
- Penyetelan Penting untuk Pengeditan Gambar Nyata Berbasis Laten
- ️ HyperStyle: Inversi StyleGAN dengan HyperNetworks untuk Pengeditan Gambar Nyata
- StyleCLIP: Manipulasi Citra StyleGAN Berbasis Teks
- Inversi GAN Fidelitas Tinggi untuk Pengeditan Atribut Gambar
- Menukar Autoencoder untuk Manipulasi Gambar Dalam
- Buat sketsa GAN Anda Sendiri
- Menulis Ulang Aturan Geometris GAN
- GAN Berapapun Biayanya untuk Sintesis dan Pengeditan Gambar Interaktif
- Pesona Ketiga Kalinya? Pengeditan Gambar dan Video dengan StyleGAN3
Interpretasi Ruang Laten
- ️ Menemukan Kontrol GAN yang Dapat Ditafsirkan (GANspace)
- Menafsirkan Ruang Laten GAN untuk Pengeditan Wajah Semantik
- Diseksi GAN: Memvisualisasikan dan Memahami Jaringan Adversarial Generatif
- Ekstraksi Petunjuk Edit StyleGAN Tanpa Pengawasan (CLIP2StyleGAN)
- Melihat Apa yang Tidak Dapat Dihasilkan oleh GAN
Anyaman Gambar
- Anyaman Gambar Dalam
- Latar Belakang Anyaman: Dunia adalah Layar Hijau Anda
- Anyaman Video yang Kuat
- Anyaman Gambar Semantik
- Anyaman Potret yang Menjaga Privasi
- Anyaman Gambar Alami Otomatis Dalam
- MatteMantan
- MODNet: Anyaman Potret Bebas Trimap Waktu Nyata melalui Dekomposisi Objektif
- ️ Anyaman Manusia yang Kuat melalui Panduan Semantik
Peralatan
Pemodelan Generatif
- NVIDIA Imaginaire: perpustakaan sintesis gambar 2D
- NVIDIA Omniverse: Platform untuk membuat dan mengoperasikan aplikasi metaverse
- generasi mm
- Modelverse: Pencarian Berbasis Konten untuk Model Generatif Mendalam
- dayungGAN
ML Kreatif
- Tensorflow.js
- ml5.js
- MediaPipe
- ️Magenta
- Wekinator
- ofxAddons
Kerangka Pembelajaran Mendalam
- ️ PyTorch
- keras
- Aliran Tensor
- ? transformator
- ? Diffuser
- JAX
- dlib
- jaringan gelap
Waktu Proses/Penerapan
- FFCV: Saluran Data yang Dioptimalkan untuk Mempercepat Pelatihan ML
- Waktu Proses ONNX
- DeepSpeed (pelatihan, inferensi, kompresi)
- TensorRT
- Tensorflow Lite
- skrip obor
- Pelayanan Obor
- Templat AI
Teks-ke-Gambar
- ️ Difusi Stabil
- Gambar
- DALLE 2
- VQGAN+KLIP
- sebagian
- Muse: Pembuatan Teks-Ke-Gambar melalui Masked Generative Transformers: Lebih efisien dibandingkan model difusi atau autoregresif teks-ke-gambar menggunakan pemodelan gambar bertopeng dengan transformator
Difusi Stabil (SD)
- Dream Studio: Layanan resmi yang dihosting di cloud Stabilitas AI.
- ️ UI Web Difusi Stabil : UI ramah pengguna untuk SD dengan fitur tambahan untuk memudahkan alur kerja umum.
- AI render (Blender): Merender adegan di Blender menggunakan perintah teks.
- Dream Textures (Blender): Plugin untuk merender tekstur, gambar referensi, dan latar belakang dengan SD.
- lexica.art - Pencarian Cepat SD.
- koi (Krita): Plugin SD untuk Krita untuk pembuatan img2img.
- Alpaca (Photoshop): Plugin Photoshop (beta).
- Plugin Christian Cantrell (Photoshop): Plugin Photoshop lainnya.
- Studio Difusi Stabil: Frontend yang berfokus pada animasi untuk SD.
- DeepSpeed-MII: Inferensi latensi rendah dan throughput tinggi untuk berbagai (20.000+) model/tugas, termasuk SD.
Bidang Cahaya Neural
- KOLOMAP
- ️ nerfstudio
- NVlabs/instan-ngp
- NerfAcc
Pengodean Kreatif
Kerangka kerja
- ️ Memproses (Java) dan p5.js (Javascript)
- kerangka terbuka (C++)
- Batubara (C++)
- nannou (Karat)
Bahasa Pemrograman Visual
- vvvv
- ️ Desainer Sentuh
- Maks/MSP/Jitter
- Data Murni
Kumpulan data
Berlisensi Permisif/Akses Terbuka
- Kumpulan Data LAION: Berbagai kumpulan data pasangan gambar-teks berskala sangat besar (terutama digunakan untuk melatih model Difusi Stabil sumber terbuka).
- LAION-Wajah
- Hapus Gambar
- Pixabay
- Pexels
- Gambar Terbuka: Gambar Terbuka adalah kumpulan data ~9 juta gambar yang dianotasi dengan label tingkat gambar, kotak pembatas objek, masker segmentasi objek, hubungan visual, dan narasi yang dilokalkan:
- Mozilla Common Voice: 17.127 jam transkripsi pidato tervalidasi yang mencakup 104 bahasa. Selain itu, banyak jam kerja yang tercatat dalam kumpulan data juga menyertakan metadata demografis seperti usia, jenis kelamin, dan aksen yang dapat membantu meningkatkan keakuratan mesin pengenalan ucapan.
- Flickr Commons: Flickr Commons adalah koleksi unik fotografi sejarah dari lebih dari 100 institusi budaya dari seluruh dunia, semuanya tanpa batasan hak cipta.
- Arsip Internet: Arsip Internet adalah perpustakaan nirlaba yang berisi jutaan buku, film, perangkat lunak, musik, situs web gratis, dan banyak lagi.
- Wikimedia Commons: kumpulan 106.323.506 berkas media yang dapat digunakan secara bebas dan siapa pun dapat berkontribusi.
- Arsip Prelinger
- Program Konten Terbuka Perpustakaan Getty: Membuat gambar dari koleksi Getty tersedia secara gratis untuk dipelajari, diajarkan, dan dinikmati.
- Akses Terbuka Smithsonian
- Tinjauan Domain Publik: Berfokus pada karya-karya yang kini berada dalam domain publik, materi-materi yang tidak mempunyai hak cipta dan merupakan milik bersama yang bebas untuk dinikmati, dibagikan, dan dikembangkan oleh semua orang tanpa batasan.
- Perpustakaan Kongres
- Perpustakaan Warisan Keanekaragaman Hayati
- Akses Terbuka Bertemu
- Akses Terbuka Galeri Seni Nasional
- Akses Terbuka Institut Seni Chicago
- Koleksi Domain Publik Perpustakaan Umum NY
- Museum untuk Kunst dan Gewerbe Hamburg Steintorplatz
- Wajah Adil
- Keterangan Konseptual
- Cepat, Gambar!
- Buka Gambar
- Menjawab Pertanyaan Visual
- Bunga TensorFlow
- Kumpulan data Produk Stanford Online
- Bentuk 3d DeepMind
- LULUS: Pengganti ImageNet untuk prapelatihan yang diawasi sendiri tanpa manusia yang dapat digunakan untuk prapelatihan berkualitas tinggi sekaligus mengurangi masalah privasi secara signifikan.
Wajah/Orang (lisensi terbatas)
- Wajah Berlabel di Alam Liar (LFW)
- SelebritiA
- LFWA+
- CelebAMask-HQ
- CelebA-Spoof
- Wajah UTK
- SSHQ: seluruh tubuh 1024 x 512 piksel
Lainnya
Produk/Aplikasi
- Peternak seni
- Tengah perjalanan
- DALLE 2 (OpenAI)
- Runway - editor video bertenaga AI.
- Facet AI - Editor gambar bertenaga AI.
- Adobe Sensei - Fitur yang didukung AI untuk rangkaian Creative Cloud.
- Demo NVIDIA AI
- ClipDrop dan pembersihan.gambar
Artis
Daftar lengkap orang-orang yang melakukan hal-hal menarik di persimpangan antara seni, ML, dan desain.
- Memo Akten
- Bricolage Syaraf (helena sarin)
- Sofia Crespo
- Lauren McCarthy
- Philip Schmitt
- Anna Ridler
- Tom Putih
- Ivona Tau
- Trevor Paglen
- Sasha Stiles
- Mario Klingemann
- Otak Tega
- Mimi Onuoha
- Allison Parrish
- Caroline Sinders
- Robbie Barrat
- Kyle McDonald
- Golan Levin
Institusi/Tempat
- STUDIO untuk Pertanyaan Kreatif
- ITP @ NYU
- Yayasan Seni Area Abu-abu
- Stabilitas AI (Eleuther, LAION, dkk.)
- Tukang Emas @ Universitas London
- Seni Media Desain UCLA
- Pusat Media Baru Berkeley
- Artis Google dan Kecerdasan Mesin
- Lab Kreatif Google
- Lab di Institut Kebudayaan Google
- Sony CSL (Tokyo dan Paris)
Daftar dan koleksi terkait
- Pembelajaran Mesin untuk Seni
- Alat dan Sumber Daya untuk Seni AI (farmasipsikotik) - Daftar besar buku catatan Google Colab untuk teknik teks-ke-gambar generatif serta alat dan sumber daya umum.
- Awesome Generative Deep Art - Daftar kurasi proyek, alat, karya seni, dan model Generative Deep Art / Generative AI
Berkontribusi
Kontribusi dipersilakan! Baca pedoman kontribusi terlebih dahulu.