
Ресурсы на стыке искусственного интеллекта и искусства. В основном это инструменты и учебные пособия, а также несколько вдохновляющих людей и мест!
Чтобы получить более широкий ресурс, охватывающий более общие инструменты творческого кодирования (которые вы, возможно, захотите использовать с тем, что перечислено здесь), посетите terkelg/awesome-creative-coding или thatcreativecode.page. Ресурсы по искусственному интеллекту и глубокому обучению в целом можно найти на сайтах ChristosChristofidis/awesome-deep-learning и https://github.com/dair-ai.
Содержание
- Обучение
- Курсы
- Видео
- Книги
- Учебники и блоги
- Статьи/Методы
- Модели диффузии (и преобразования текста в изображение)
- Поля Neural Radiance (и подобные NeRF вещи)
- 3D и облака точек
- Безусловный синтез изображений
- Синтез условного изображения (и обратные задачи)
- Инверсия GAN (и редактирование)
- Интерпретация скрытого пространства
- Матирование изображения
- Инструменты
- Креативное машинное обучение
- Глубокое обучение
- Среды выполнения/развертывание
- преобразование текста в изображение
- Креативное кодирование
- Стабильная диффузия
- Наборы данных
- Продукты/Приложения
- Художники
- Учреждения/Места
- Связанные списки
записи, выделенные жирным шрифтом , обозначают мои любимые ресурсы для этого раздела/подраздела (если бы мне пришлось выбрать один ресурс). Кроме того, каждый подраздел обычно упорядочен по специфике содержания (самые общие перечислены первыми).
Обучение
Курсы
Общее глубокое обучение
- Практическое глубокое обучение для программистов (fast.ai)
- Глубокое обучение (Нью-Йоркский университет)
- Введение в глубокое обучение (CMU)
- ️ Глубокое обучение для компьютерного зрения (UMich)
- Глубокое обучение для компьютерного зрения (Stanford CS231n)
- Обработка естественного языка с глубоким обучением (Stanford CS224n)
Глубокое генеративное моделирование
- Глубокие генеративные модели (Стэнфорд)
- Глубокое обучение без учителя (Калифорнийский университет в Беркли)
- Дифференцируемый вывод и генеративные модели (Торонто)
- ️ Синтез изображений на основе обучения (CMU)
- Изучение дискретной скрытой структуры (Торонто)
- От основ глубокого обучения к стабильному распространению (fast.ai)
Креативное программирование и новые медиа
- ️ Глубокое обучение искусству, эстетике и творчеству (MIT)
- Машинное обучение для Интернета (ITP/NYU)
- Искусство и машинное обучение (CMU)
- Инсталляция новых медиа: Искусство, которое учится (CMU)
- Введение в вычислительные среды (ITP/NYU)
Видео
- ️ ИИ, который создаёт любую картинку по вашему желанию, объяснил (Vox)
- Я создал нейронную сеть и попытался научить ее распознавать каракули (Себастьян Лаг)
- Серия нейронных сетей (3Blue1Brown)
- Руководство для начинающих по машинному обучению в JavaScript (поезд по программированию)
- Двухминутные статьи
Книги
- ️ Погрузитесь в глубокое обучение (Чжан, Липтон, Ли и Смола)
- Глубокое обучение (Гудфеллоу, Бенджио и Курвиль)
- Компьютерное зрение: алгоритмы и приложения (Селиски)
- Процедурная генерация контента в играх (Шейкер, Тогелиус и Нельсон)
- Генеративный дизайн (Бенедикт Гросс)
Учебники и блоги
Глубокое обучение
- ️ VQGAN-CLIP: создание и редактирование изображений открытого домена с использованием естественного языка (Кроусон и Бидерман)
- Учебное пособие по глубоким генеративным моделям (IJCAI-ECAI 2018)
- Учебное пособие по GAN (CVPR 2018)
- Лил'Лог (Лилиан Венг)
- Дистилл [в перерыве]
Генеративное искусство
- ️ Создание генеративного искусства с помощью простой математики
- Книга шейдеров: Генеративные проекты
- Майк Босток: Визуализация алгоритмов (с докладом Eyeo)
- Генеративные примеры в обработке
- Генеративная музыка
Статьи/Методы
Модели диффузии (и преобразования текста в изображение)
- SDEdit: Управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений: статья, предшествовавшая Stable Diffusion, описывающая метод синтеза и редактирования изображений с помощью моделей, основанных на диффузии.
- GLIDE: На пути к созданию и редактированию фотореалистичных изображений с помощью моделей диффузии с текстовым управлением
- Синтез изображений высокого разрешения с моделями скрытой диффузии: оригинальная статья, которая представила стабильную диффузию и положила начало всему.
- Редактирование изображения «подсказка к подсказке» с контролем перекрестного внимания: редактируйте выходные данные Stable Diffusion, редактируя исходную подсказку.
- Изображение стоит одного слова: персонализация генерации текста в изображение с использованием текстовой инверсии: похоже на приглашение к подсказке, но вместо этого принимает входное изображение и текстовое описание. Что-то вроде Style Transfer... но со стабильной диффузией.
- DreamBooth: точная настройка моделей диффузии текста в изображение для объектно-ориентированной генерации: аналогично текстовой инверсии, но вместо этого фокусируется на манипулировании предметно-ориентированными изображениями (т. е. эта вещь/человек/и т. д., но под водой ).
- Синтез новых представлений с помощью диффузионных моделей
- AudioGen: генерация аудио с текстовым управлением
- Make-A-Video: генерация текста в видео без текстовых видеоданных
- Imagic: редактирование реальных изображений на основе текста с помощью диффузионных моделей
- MDM: Модель распространения человеческого движения
- Мягкая диффузия: сопоставление оценок для общей коррупции
- Многоконцептуальная настройка распространения текста в изображение: как DreamBooth, но способная синтезировать несколько концепций.
- eDiff-I: модели диффузии текста в изображение с ансамблем экспертных шумоподавителей
- Выяснение пространства проектирования генеративных моделей на основе диффузии (EDM)
- Решение трилеммы генеративного обучения с помощью шумоподавляющих диффузионных GAN
- Imagen Video: создание видео высокой четкости с помощью диффузионных моделей
Поля Neural Radiance (и подобные NeRF вещи)
- Возвращение к структуре из движения: предыдущая работа над разреженным моделированием (все еще необходима/полезна для NeRF)
- Пиксельный выбор вида для неструктурированного многовидового стерео: предыдущая работа над плотным моделированием (NeRF как бы заменяет это)
- DeepSDF: изучение непрерывных функций расстояния со знаком для представления формы
- Отложенный нейронный рендеринг: синтез изображений с использованием нейронных текстур
- Нейронные объемы: изучение динамических визуализируемых объемов по изображениям
- ️ NeRF: Представление сцен в виде полей нейронного излучения для синтеза изображений : статья, с которой все началось...
- Нейронные поля излучения для неограниченных коллекций фотографий: NeRF в дикой природе (альтернатива MVS)
- Nerfies: Deformable Neural Radiance Fields: Фотореалистичный NeRF на основе случайных фотографий и видео в дикой природе (например, с мобильного телефона).
- Mip-NeRF: многомасштабное представление сглаживающих полей нейронного излучения: NeRF... но ЛУЧШЕ БЫСТРЕЕ СИЛЬНЕЕ СИЛЬНЕЕ
- NeRF с контролем глубины: меньше просмотров и более быстрое обучение бесплатно: обучайте модели NeRF быстрее с меньшим количеством изображений за счет использования информации о глубине
- Мгновенные примитивы нейронной графики с хэш-кодированием с несколькими разрешениями: кэширование для обучения NeRF, чтобы сделать его очень БЫСТРЫМ
- Понимание руководства Pure CLIP для моделей NeRF Voxel Grid: преобразование текста в 3D с использованием CLIP
- NeRF-SLAM: плотный монокулярный SLAM в реальном времени с нейронными радиационными полями: NeRF для роботов (и автомобилей)
- nerf2nerf: парная регистрация полей нейронного излучения: предварительно обученный NeRF
- Эпизод, в котором в телешоу реконструировали трехмерных людей и окружающую среду
- ClimateNeRF: физически обоснованный нейронный рендеринг для синтеза экстремальных климатических условий
- Реалистичные одноразовые аватары головы на основе сетки
- Нейронно-точечная катакаустика для нового синтеза отражений
- 3D-моменты из почти повторяющихся фотографий
- NeRDi: однопроекционный синтез NeRF с языковым распространением в качестве общих априорных изображений
3D и облака точек
- DreamFusion: преобразование текста в 3D с использованием 2D Diffusion (Google)
- ULIP: Изучение унифицированного представления языка, изображения и облака точек для понимания 3D (Salesforce)
- Извлечение треугольных 3D-моделей, материалов и освещения из изображений (NVIDIA)
- GET3D: генеративная модель высококачественных 3D-текстурированных фигур, полученная из изображений (NVIDIA)
- Генерация 3D-нейронного поля с использованием триплоскостной диффузии
- ? MagicPony: изучение шарнирных 3D-животных в дикой природе
- ObjectStitch: Генеративный композитинг объектов (Adobe)
- LADIS: распутывание языка для редактирования 3D-форм (привязка)
- Роден: генеративная модель для создания цифровых 3D-аватаров с использованием диффузии (Microsoft)
- SDFusion: завершение, реконструкция и создание мультимодальных 3D-форм (привязка)
- DiffRF: диффузия 3D-поля сияния на основе рендеринга (мета)
- Новый синтез представлений с помощью диффузионных моделей (Google)
- ️ Magic3D: создание текста в 3D-контенте высокого разрешения (NVIDIA)
Безусловный синтез изображений
- Выборка генеративных сетей
- Обучение нейронному дискретному представлению (VQVAE)
- Прогрессивное развитие GAN для улучшения качества, стабильности и разнообразия
- Архитектура генератора на основе стилей для генеративно-состязательных сетей (StyleGAN)
- ️ Анализ и улучшение качества изображения StyleGAN (StyleGAN2)
- Обучение генеративно-состязательных сетей с ограниченными данными (StyleGAN2-ADA)
- Генеративно-состязательные сети без псевдонимов (StyleGAN3)
- Создание разнообразных изображений высокой четкости с помощью VQ-VAE-2
- Укрощение трансформаторов для синтеза изображений высокого разрешения (VQGAN)
- Модели диффузии превосходят GAN в синтезе изображений
- StyleNAT: давая каждой голове новую перспективу
- StyleGAN-XL: масштабирование StyleGAN для больших и разнообразных наборов данных
Синтез условного изображения (и обратные задачи)
- Перевод изображения в изображение с использованием условно-состязательных сетей (pix2pix)
- Непарный перевод изображения в изображение с использованием циклически согласованных состязательных сетей (CycleGAN)
- Синтез изображений высокого разрешения и семантическая манипуляция с условными GAN (pix2pixHD)
- Семантическое редактирование сцен путем добавления, манипулирования или удаления объектов (СЕЗАМЕ)
- Синтез семантического изображения с пространственно-адаптивной нормализацией (SPADE)
- Вам нужен только состязательный надзор для синтеза семантического изображения (OASIS)
- Кодирование в стиле: кодировщик StyleGAN для перевода изображений в изображения
- Мультимодальный синтез условных изображений с использованием GAN продуктов экспертов
- Палитра: модели диффузии изображений между изображениями
- Модели диффузии текста в изображение, управляемые эскизами
- HRDA: контекстно-зависимая семантическая сегментация высокого разрешения с адаптацией к предметной области
- PiPa: самоконтролируемое обучение по пикселям и патчам для адаптивной семантической сегментации предметной области
- MIC: согласованность маскированных изображений для контекстно-расширенной адаптации предметной области
- Предварительная подготовка — это все, что вам нужно для перевода изображения в изображение (PITI)
Инверсия GAN (и редактирование)
- Генеративное визуальное манипулирование многообразием естественных изображений (iGAN)
- Внутридоменная инверсия GAN для редактирования реальных изображений
- Image2StyleGAN: как встроить изображения в скрытое пространство StyleGAN?
- Проектирование кодировщика для манипулирования изображениями StyleGAN
- Основная настройка для скрытого редактирования реальных изображений
- ️ HyperStyle: инверсия StyleGAN с HyperNetworks для редактирования реальных изображений
- StyleCLIP: текстовое управление изображениями StyleGAN
- Высококачественная инверсия GAN для редактирования атрибутов изображений
- Замена автоэнкодера на глубокую обработку изображений
- Нарисуйте свой собственный GAN
- Переписывание геометрических правил GAN
- Anycost GAN для интерактивного синтеза и редактирования изображений
- Третий раз - это очарование? Редактирование изображений и видео с помощью StyleGAN3
Интерпретация скрытого пространства
- ️ Обнаружение интерпретируемых элементов управления GAN (GANspace)
- Интерпретация скрытого пространства GAN для семантического редактирования лиц
- Рассечение GAN: визуализация и понимание генеративно-состязательных сетей
- Неконтролируемое извлечение направлений редактирования StyleGAN (CLIP2StyleGAN)
- Видим, что GAN не может сгенерировать
Матирование изображения
- Глубокое матирование изображения
- Фоновое покрытие: мир — это ваш зеленый экран
- Прочное видео матирование
- Семантическое матирование изображений
- Портретный коврик, сохраняющий конфиденциальность
- Глубокое автоматическое матирование естественного изображения
- MatteFormer
- MODNet: портретное матирование без трикарт в реальном времени посредством объективной декомпозиции
- ️ Надежное человеческое матирование с помощью семантического руководства
Инструменты
Генеративное моделирование
- NVIDIA Imaginaire: библиотека синтеза 2D-изображений
- NVIDIA Omniverse: платформа для создания и эксплуатации приложений метавселенной.
- ммгенерация
- Modelverse: поиск глубоких генеративных моделей на основе контента
- ВеслоГАН
Креативное машинное обучение
- Тензорный поток.js
- ml5.js
- МедиаПайп
- ️ Пурпурный
- Векинатор
- ofxAddons
Платформы глубокого обучения
- ️ PyTorch
- Керас
- Тензорный поток
- ? Трансформеры
- ? Диффузоры
- ДЖАКС
- dlib
- Даркнет
Среды выполнения/развертывание
- FFCV: оптимизированный конвейер данных для ускорения обучения машинному обучению
- Среда выполнения ONNX
- DeepSpeed (обучение, вывод, сжатие)
- ТензорРТ
- Тензорфлоу Лайт
- Торчскрипт
- ФакелСервировать
- AITemplate
Преобразование текста в изображение
- ️ Стабильная диффузия
- Изображение
- ДАЛЛЕ 2
- ВКГАН+КЛИП
- Парти
- Muse: генерация текста в изображение с помощью генеративных преобразователей в маске: более эффективно, чем диффузионные или авторегрессионные модели преобразования текста в изображение, используемые в моделировании маскированных изображений с преобразователями.
Стабильная диффузия (SD)
- Dream Studio: официальный облачный сервис Stability AI.
- ️ Стабильный веб-интерфейс Diffusion : удобный пользовательский интерфейс для SD с дополнительными функциями, упрощающими общие рабочие процессы.
- AI-рендеринг (Blender): рендеринг сцен в Blender с использованием текстовой подсказки.
- Dream Textures (Blender): плагин для рендеринга текстур, эталонных изображений и фона с помощью SD.
- lexica.art - Быстрый поиск SD.
- koi (Krita): SD-плагин для Krita для генерации img2img.
- Альпака (Photoshop): плагин Photoshop (бета).
- Плагин Кристиана Кантрелла (Photoshop): еще один плагин для Photoshop.
- Stable Diffusion Studio: интерфейс для SD, ориентированный на анимацию.
- DeepSpeed-MII: вывод с малой задержкой и высокой пропускной способностью для различных (более 20 000) моделей/задач, включая SD.
Нейронные поля излучения
- КОЛМАП
- ️ Нерфстудия
- NVlabs/мгновенный-ngp
- НерфАкк
Креативное кодирование
Рамки
- ️ Обработка (Java) и p5.js (Javascript)
- openFrameworks (С++)
- Зола (C++)
- Нанноу (Ржавчина)
Языки визуального программирования
- вввв
- ️ TouchDesigner
- Макс/MSP/джиттер
- Чистые данные
Наборы данных
Разрешительная лицензия/открытый доступ
- Наборы данных LAION: различные очень крупномасштабные наборы данных пар изображение-текст (в частности, используемые для обучения моделей стабильной диффузии с открытым исходным кодом).
- LAION-Лицо
- Удалить изображения
- Pixabay
- Пексели
- Открытые изображения: Открытые изображения — это набор данных, содержащий около 9 миллионов изображений, снабженных метками на уровне изображения, ограничивающими рамками объектов, масками сегментации объектов, визуальными связями и локализованными описаниями:
- Mozilla Common Voice: 17 127 проверенных часов транскрибированной речи на 104 языках. Кроме того, многие из записанных часов в наборе данных также включают демографические метаданные, такие как возраст, пол и акцент, которые могут помочь повысить точность механизмов распознавания речи.
- Flickr Commons: Flickr Commons — это уникальная коллекция исторических фотографий из более чем 100 культурных учреждений со всего мира, без каких-либо известных ограничений авторских прав.
- Интернет-архив: Интернет-архив — это некоммерческая библиотека, содержащая миллионы бесплатных книг, фильмов, программного обеспечения, музыки, веб-сайтов и многого другого.
- Wikimedia Commons: коллекция из 106 323 506 свободно используемых медиафайлов, в которые каждый может внести свой вклад.
- Архив Прелингера
- Программа открытого контента библиотеки Гетти: создание свободного доступа к изображениям из коллекций Гетти для изучения, преподавания и развлечения.
- Смитсоновский институт открытого доступа
- Обзор общественного достояния: основное внимание уделяется произведениям, которые теперь перешли в общественное достояние, обширному достоянию материалов, не защищенных авторскими правами, которыми каждый может наслаждаться, делиться и использовать их без ограничений.
- Библиотека Конгресса
- Библиотека наследия биоразнообразия
- Открытый доступ к Метрополитену
- Национальная галерея искусств открытого доступа
- Институт искусств Чикаго, открытый доступ
- Коллекции публичного достояния публичной библиотеки Нью-Йорка
- Музей искусства и искусства Гамбурга Штайнторплац
- FairFace
- Концептуальные подписи
- Быстро, рисуй!
- Открыть изображения
- Визуальный ответ на вопрос
- ТензорПотоки Цветов
- Набор данных Stanford Online Products
- DeepMind 3D-фигуры
- PASS: замена ImageNet для самостоятельного предварительного обучения без участия людей, которую можно использовать для высококачественного предварительного обучения, значительно снижая при этом проблемы конфиденциальности.
Лица/Люди (ограниченные лицензии)
- Маркированные лица в дикой природе (LFW)
- Знаменитость
- ЛФВА+
- CelebAMask-HQ
- Знаменитость-пародия
- ЮТКФейс
- SSHQ: полное тело 1024 x 512 пикселей.
Другой
Продукты/Приложения
- Артбридер
- Середина пути
- ДАЛЛЕ 2 (OpenAI)
- Runway - видеоредактор на базе искусственного интеллекта.
- Facet AI — редактор изображений на базе искусственного интеллекта.
- Adobe Sensei — функции на базе искусственного интеллекта для пакета Creative Cloud.
- Демонстрации искусственного интеллекта NVIDIA
- ClipDrop и cleanup.pictures
Художники
Неполный список людей, которые занимаются интересными вещами на стыке искусства, машинного обучения и дизайна.
- Памятка Актен
- Нейронный бриколаж (Хелена Зарин)
- София Креспо
- Лорен Маккарти
- Филипп Шмитт
- Анна Ридлер
- Том Уайт
- Ивона Тау
- Тревор Паглен
- Саша Стайлз
- Марио Клингеманн
- Тега Мозг
- Мими Онуоха
- Эллисон Пэрриш
- Кэролайн Синдерс
- Робби Баррат
- Кайл Макдональд
- Голан Левин
Учреждения/Места
- СТУДИЯ для творческих запросов
- ИТП @ Нью-Йоркский университет
- Фонд искусств «Серая зона»
- Стабильность AI (Элеутер, LAION и др.)
- Ювелиры @ Лондонский университет
- Калифорнийский университет в Лос-Анджелесе Дизайн Медиа-искусства
- Центр новых медиа Беркли
- Google Artists и машинный интеллект
- Google Творческая лаборатория
- Лаборатория Института культуры Google
- Sony CSL (Токио и Париж)
Связанные списки и коллекции
- Машинное обучение для искусства
- Инструменты и ресурсы для искусственного интеллекта (фармапсихотика) — большой список блокнотов Google Colab для генеративных методов преобразования текста в изображение, а также общих инструментов и ресурсов.
- Awesome Generative Deep Art — тщательно подобранный список проектов, инструментов, произведений искусства и моделей Generative Deep Art/Generative AI.
Содействие
Вклады приветствуются! Сначала прочтите правила внесения взносов.