
AI 와 예술의 교차점에 있는 리소스. 주로 도구와 튜토리얼이지만 영감을 주는 사람들과 장소도 포함되어 있습니다!
보다 일반적인 창의적 코딩 도구(여기에 나열된 것과 함께 사용할 수 있음)를 다루는 광범위한 리소스를 보려면 terkelg/awesome-creative-coding 또는 thatcreativecode.page를 확인하세요. AI 및 일반적인 딥 러닝에 대한 리소스는 ChristosChristofidis/awesome-deep-learning 및 https://github.com/dair-ai를 확인하세요.
내용물
- 학습
- 논문/방법
- 확산 모델(및 텍스트-이미지)
- 신경 복사 필드(및 NeRF와 유사한 것)
- 3D 및 포인트 클라우드
- 무조건적인 이미지 합성
- 조건부 이미지 합성(및 역문제)
- GAN 반전(및 편집)
- 잠재 공간 해석
- 이미지 매트
- 도구
- 크리에이티브 ML
- 딥러닝
- 런타임/배포
- 텍스트를 이미지로
- 창의적인 코딩
- 안정적인 확산
- 데이터세트
- 제품/앱
- 아티스트
- 기관/장소
- 관련 목록
굵은 항목은 해당 섹션/하위 섹션에서 내가 가장 좋아하는 리소스를 나타냅니다(단일 리소스를 선택 해야 하는 경우). 또한 각 하위 섹션은 일반적으로 내용의 특이성에 따라 정렬됩니다(가장 일반적인 내용이 먼저 나열됨).
학습
행동
일반 딥러닝
- 코더를 위한 실용적인 딥러닝(fast.ai)
- 딥러닝(NYU)
- 딥러닝(CMU) 소개
- ️ 컴퓨터 비전을 위한 딥 러닝(UMich)
- 컴퓨터 비전을 위한 딥 러닝(Stanford CS231n)
- 딥러닝을 통한 자연어 처리(Stanford CS224n)
심층 생성 모델링
- 심층 생성 모델(스탠포드)
- 심층 비지도 학습(UC Berkeley)
- 미분 가능한 추론 및 생성 모델(토론토)
- ️ 학습 기반 이미지 합성(CMU)
- 이산 잠재 구조 학습(토론토)
- 딥러닝 기초부터 안정적인 확산까지(fast.ai)
창의적인 코딩과 뉴미디어
- ️ 예술, 미학, 창의성을 위한 딥 러닝(MIT)
- 웹용 머신러닝(ITP/NYU)
- 예술과 기계 학습(CMU)
- 뉴미디어 설치: 배우는 예술(CMU)
- 컴퓨팅 미디어 소개(ITP/NYU)
비디오
- ️ 원하는 사진을 만들어주는 AI 설명(Vox)
- 신경망을 만들고 낙서를 인식하도록 가르쳐 보았습니다(Sebastian Lague)
- 신경망 시리즈(3Blue1Brown)
- JavaScript 머신러닝 초보자 가이드(코딩 트레인)
- 2분짜리 논문
서적
- ️ 딥 러닝에 대해 알아보세요(Zhang, Lipton, Li, Smola)
- 딥 러닝(Goodfellow, Bengio 및 Courville)
- 컴퓨터 비전: 알고리즘 및 애플리케이션(Szeliski)
- 게임의 절차적 콘텐츠 생성(Shaker, Togelius 및 Nelson)
- 제너레이티브 디자인(Benedikt Groß)
튜토리얼 및 블로그
딥러닝
- ️ VQGAN-CLIP: 자연어 안내를 통한 개방형 도메인 이미지 생성 및 편집(Crowson 및 Biderman)
- 심층 생성 모델 튜토리얼(IJCAI-ECAI 2018)
- GAN 튜토리얼(CVPR 2018)
- 릴로그(릴리안 웽)
- 증류 [중단 중]
생성 예술
- ️ 간단한 수학으로 생성 예술 만들기
- 셰이더 책: 생성적 디자인
- Mike Bostock: 알고리즘 시각화(Eyeo Talk 포함)
- 처리의 생성적 예
- 생성음악
논문/방법
확산 모델(및 텍스트-이미지)
- SDEdit: 확률적 미분 방정식을 사용한 안내 이미지 합성 및 편집: 확산 기반 모델을 사용한 이미지 합성 및 편집 방법을 설명하는 Stable Diffusion보다 앞선 논문입니다.
- GLIDE: 텍스트 기반 확산 모델을 사용한 사실적인 이미지 생성 및 편집을 향하여
- 잠재 확산 모델을 사용한 고해상도 이미지 합성: Stable Diffusion을 소개하고 모든 것을 시작한 원본 논문입니다.
- Cross-Attention Control을 사용한 프롬프트 간 이미지 편집: 원본 프롬프트를 편집하여 Stable Diffusion 출력을 편집합니다.
- 이미지는 한 단어만큼 가치가 있습니다. 텍스트 반전을 사용하여 텍스트-이미지 생성 개인화: 프롬프트-프롬프트와 유사하지만 대신 입력 이미지와 텍스트 설명을 사용합니다. 스타일 트랜스퍼(Style Transfer)와 비슷하지만 안정적인 확산이 가능합니다.
- DreamBooth: 주제 중심 생성을 위한 텍스트-이미지 확산 모델 미세 조정: 텍스트 반전과 유사하지만 대신 주제 기반 이미지(예: 이 사물/사람/등. 그러나 수중 )를 조작하는 데 중점을 둡니다.
- 확산 모델을 이용한 새로운 관점 합성
- AudioGen: 텍스트 안내 오디오 생성
- Make-A-Video: 텍스트-비디오 데이터 없이 텍스트-비디오 생성
- Imagic: 확산 모델을 사용한 텍스트 기반 실제 이미지 편집
- MDM: 인간 동작 확산 모델
- Soft Diffusion: 일반적인 부패에 대한 점수 매칭
- 텍스트-이미지 확산의 다중 개념 사용자 정의: DreamBooth와 유사하지만 여러 개념을 합성할 수 있습니다.
- eDiff-I: 전문 디노이저 앙상블을 사용한 텍스트-이미지 확산 모델
- 확산 기반 생성 모델(EDM)의 설계 공간 설명
- Denoising Diffusion GAN을 사용하여 생성 학습 트릴레마 해결
- Imagen 비디오: 확산 모델을 사용한 고화질 비디오 생성
신경 복사 필드(및 NeRF와 유사한 것)
- Motion-from-Motion 재검토: 희소 모델링에 대한 이전 작업(NeRF에 여전히 필요/유용함)
- 구조화되지 않은 다중 뷰 스테레오를 위한 픽셀별 뷰 선택: 밀집 모델링에 대한 이전 작업(NeRF가 이를 대체함)
- DeepSDF: 모양 표현을 위한 연속 부호 거리 함수 학습
- 지연 신경망 렌더링: 신경망 텍스처를 사용한 이미지 합성
- 신경 볼륨: 이미지에서 동적 렌더링 가능 볼륨 학습
- ️ NeRF: 장면을 뷰 합성을 위한 신경 방사 필드로 표현 : 모든 것을 시작한 논문...
- 제약 없는 사진 컬렉션을 위한 신경 복사장: 야생의 NeRF(MVS 대체)
- Nerfies: 변형 가능한 Neural Radiance Fields: 일상적인 야생 사진 및 비디오(휴대폰 등)에서 얻은 사실적인 NeRF
- Mip-NeRF: 앤티앨리어싱 신경 방사 필드에 대한 다중 스케일 표현: NeRF... 하지만 더 빠르고 더 강력합니다.
- 깊이 감독 NeRF: 무료로 더 적은 뷰와 더 빠른 교육: 깊이 정보를 활용하여 더 적은 수의 이미지로 더 빠르게 NeRF 모델을 교육합니다.
- 다중 해상도 해시 인코딩이 포함된 즉각적인 신경 그래픽 프리미티브: NeRF 훈련을 위한 캐싱을 통해 완전히 빠르게 만들기
- 복셀 그리드 NeRF 모델을 위한 순수 CLIP 지침 이해: CLIP을 사용하여 텍스트를 3D로 변환
- NeRF-SLAM: 신경 복사장을 갖춘 실시간 밀도 단안 SLAM: 로봇(및 자동차)용 NeRF
- nerf2nerf: 신경 방사 필드의 쌍별 등록: 사전 훈련된 NeRF
- TV 쇼에서 인간과 환경을 3D로 재구성한 곳
- ClimateNeRF: 극한 기후 합성을 위한 물리 기반 신경 렌더링
- 사실적인 원샷 메시 기반 머리 아바타
- 반사의 새로운 관점 합성을 위한 신경점 재해석
- 거의 중복된 사진의 3D 순간
- NeRDi: 일반 이미지 우선순위로서 언어 기반 확산을 사용한 단일 뷰 NeRF 합성
3D 및 포인트 클라우드
- DreamFusion: 2D 확산을 사용한 텍스트-3D(Google)
- ULIP: 3D 이해를 위한 언어, 이미지 및 포인트 클라우드의 통합 표현 학습(Salesforce)
- 이미지에서 삼각형 3D 모델, 재료 및 조명 추출(NVIDIA)
- GET3D: 이미지에서 학습된 고품질 3D 질감 모양의 생성 모델(NVIDIA)
- Triplane Diffusion을 이용한 3차원 신경장 생성
- ? MagicPony: 야생에서 관절이 있는 3D 동물 배우기
- ObjectStitch: 생성적 개체 합성(Adobe)
- LADIS: 3D 형상 편집을 위한 언어 분리(스냅)
- Rodin: 확산을 사용하여 3D 디지털 아바타를 조각하기 위한 생성 모델(Microsoft)
- SDFusion: 다중 모드 3D 형상 완성, 재구성 및 생성(스냅)
- DiffRF: 렌더링 기반 3D Radiance Field Diffusion(메타)
- 확산 모델을 사용한 새로운 뷰 합성(Google)
- ️ Magic3D: 고해상도 텍스트를 3D로 변환하는 콘텐츠 제작(NVIDIA)
무조건적인 이미지 합성
- 생성 네트워크 샘플링
- 신경 이산 표현 학습(VQVAE)
- 향상된 품질, 안정성 및 변형을 위한 GAN의 점진적인 성장
- 생성적 적대 신경망(StyleGAN)을 위한 스타일 기반 생성기 아키텍처
- ️ StyleGAN(StyleGAN2)의 이미지 품질 분석 및 개선
- 제한된 데이터로 생성적 적대 신경망 훈련(StyleGAN2-ADA)
- 별칭 없는 생성적 적대 신경망(StyleGAN3)
- VQ-VAE-2로 다양한 고화질 이미지 생성
- 고해상도 이미지 합성을 위한 변환기 길들이기(VQGAN)
- 확산 모델이 이미지 합성에서 GAN을 능가함
- StyleNAT: 각 머리에 새로운 관점 제공
- StyleGAN-XL: StyleGAN을 대규모의 다양한 데이터세트로 확장
조건부 이미지 합성(및 역문제)
- 조건부 적대 신경망을 사용한 이미지-이미지 변환(pix2pix)
- Cycle-Condependent Adversarial Networks (CycleGAN)를 사용한 짝이 없는 이미지 간 변환
- 조건부 GAN을 사용한 고해상도 이미지 합성 및 의미 조작(pix2pixHD)
- 객체 추가, 조작 또는 삭제를 통한 장면의 의미론적 편집(SESAME)
- 공간 적응형 정규화(SPADE)를 사용한 의미론적 이미지 합성
- 의미론적 이미지 합성(OASIS)에는 적대적 감독만 필요합니다.
- 스타일로 인코딩: 이미지-이미지 변환을 위한 StyleGAN 인코더
- 전문가 제품 GAN을 사용한 다중 모드 조건부 이미지 합성
- 팔레트: 이미지-이미지 확산 모델
- 스케치 기반 텍스트-이미지 확산 모델
- HRDA: 상황 인식 고분해능 도메인 적응 의미론적 분할
- PiPa: 도메인 적응형 의미론적 분할을 위한 픽셀 및 패치별 자가 지도 학습
- MIC: 컨텍스트 강화 도메인 적응을 위한 마스크된 이미지 일관성
- 이미지-이미지 변환(PITI)에 필요한 것은 사전 훈련뿐입니다.
GAN 반전(및 편집)
- iGAN(자연 이미지 매니폴드의 생성적 시각적 조작)
- 실제 이미지 편집을 위한 도메인 내 GAN 반전
- Image2StyleGAN: StyleGAN 잠재 공간에 이미지를 삽입하는 방법은 무엇입니까?
- StyleGAN 이미지 조작을 위한 인코더 설계
- 실제 이미지의 잠재 기반 편집을 위한 중추적 튜닝
- ️ HyperStyle: 실제 이미지 편집을 위한 HyperNetworks를 사용한 StyleGAN 반전
- StyleCLIP: StyleGAN 이미지의 텍스트 기반 조작
- 이미지 속성 편집을 위한 고성능 GAN 반전
- 심층 이미지 조작을 위한 오토인코더 교체
- 나만의 GAN 스케치
- GAN의 기하학적 규칙 재작성
- 대화형 이미지 합성 및 편집을 위한 Anycost GAN
- 세 번째는 매력인가요? StyleGAN3을 사용한 이미지 및 비디오 편집
잠재 공간 해석
- ️ 해석 가능한 GAN 컨트롤 발견(GANspace)
- 의미론적 얼굴 편집을 위한 GAN의 잠재 공간 해석
- GAN 분석: 생성적 적대 네트워크 시각화 및 이해
- StyleGAN 편집 방향의 비지도 추출(CLIP2StyleGAN)
- GAN이 생성할 수 없는 것을 확인하기
이미지 매트
- 깊은 이미지 매트
- 배경 매트: 세상이 바로 그린 스크린입니다
- 견고한 비디오 매트
- 의미론적 이미지 매팅
- 개인정보를 보호하는 초상화 매트
- 깊은 자동 자연 이미지 매트
- 매트이전
- MODNet: 객관적인 분해를 통한 실시간 Trimap-Free 초상화 매트팅
- ️ 의미론적 안내를 통한 강력한 인간 매트팅
도구
생성 모델링
- NVIDIA Imaginaire: 2D 이미지 합성 라이브러리
- NVIDIA Omniverse: 메타버스 애플리케이션 생성 및 운영을 위한 플랫폼
- mm세대
- Modelverse: 심층 생성 모델을 위한 콘텐츠 기반 검색
- 패들GAN
크리에이티브 ML
- Tensorflow.js
- ml5.js
- 미디어파이프
- ️ 마젠타
- 위키네이터
- ofx애드온
딥러닝 프레임워크
- ️ 파이토치
- 케라스
- 텐서플로우
- ? 트랜스포머
- ? 디퓨저
- 잭스
- dlib
- 다크넷
런타임/배포
- FFCV: ML 훈련 가속화를 위해 최적화된 데이터 파이프라인
- ONNX 런타임
- DeepSpeed(훈련, 추론, 압축)
- 텐서RT
- 텐서플로우 라이트
- 토치스크립트
- 토치서브
- AI템플릿
텍스트를 이미지로
- ️ 안정적인 확산
- 이미지
- 달레 2
- VQGAN+클립
- 이상적 상대
- Muse: 마스크 생성 변환기를 통한 텍스트-이미지 생성: 변환기가 있는 마스크 이미지 모델링을 사용하는 확산 또는 자동 회귀 텍스트-이미지 모델보다 더 효율적입니다.
안정 확산(SD)
- Dream Studio: 공식 Stability AI 클라우드 호스팅 서비스입니다.
- ️ Stable Diffusion Web UI : 일반적인 워크플로를 쉽게 만드는 추가 기능을 갖춘 사용자 친화적인 SD용 UI입니다.
- AI 렌더링(Blender): 텍스트 프롬프트를 사용하여 Blender에서 장면을 렌더링합니다.
- Dream Textures(Blender): SD로 텍스처, 참조 이미지 및 배경을 렌더링하는 플러그인입니다.
- lexica.art - SD 프롬프트 검색.
- koi (Krita): img2img 생성을 위한 Krita용 SD 플러그인입니다.
- Alpaca(Photoshop): Photoshop 플러그인(베타).
- Christian Cantrell의 플러그인(Photoshop): 또 다른 Photoshop 플러그인입니다.
- Stable Diffusion Studio: 애니메이션 중심의 SD용 프론트엔드입니다.
- DeepSpeed-MII: SD를 포함한 다양한(20,000+) 모델/작업에 대한 짧은 지연 시간과 높은 처리량 추론.
신경 복사장
- 콜맵
- ️ 너프스튜디오
- NVlabs/instant-ngp
- 너프Acc
창의적인 코딩
프레임워크
- ️ 처리(Java) 및 p5.js(Javascript)
- 오픈프레임웍스(C++)
- 신더(C++)
- 난노(러스트)
시각적 프로그래밍 언어
- vvvv
- ️ 터치디자이너
- 최대/MSP/지터
- 순수 데이터
데이터세트
허가된 라이선스/오픈 액세스
- LAION 데이터 세트: 다양한 대규모 이미지-텍스트 쌍 데이터 세트(특히 오픈 소스 Stable Diffusion 모델을 훈련하는 데 사용됨).
- LAION-페이스
- 언스플래시 이미지
- Pixabay
- 펙셀
- Open Images: Open Images는 이미지 수준 레이블, 객체 경계 상자, 객체 분할 마스크, 시각적 관계 및 현지화된 설명으로 주석이 달린 ~900만 개의 이미지로 구성된 데이터세트입니다.
- Mozilla Common Voice: 104개 언어를 포함하는 17,127시간의 검증된 음성 녹음. 또한 데이터 세트에 기록된 많은 시간에는 음성 인식 엔진의 정확성을 향상시키는 데 도움이 될 수 있는 연령, 성별, 억양과 같은 인구통계학적 메타데이터도 포함되어 있습니다.
- Flickr Commons: Flickr Commons는 알려진 저작권 제한이 없는 전 세계 100개 이상의 문화 기관에서 수집한 독특한 역사 사진 컬렉션입니다.
- 인터넷 아카이브: 인터넷 아카이브는 수백만 권의 무료 도서, 영화, 소프트웨어, 음악, 웹 사이트 등을 갖춘 비영리 도서관입니다.
- Wikimedia Commons: 누구나 기여할 수 있는 무료로 사용 가능한 106,323,506개의 미디어 파일 모음입니다.
- 프렐링거 아카이브
- Getty Library 공개 콘텐츠 프로그램: Getty 컬렉션의 이미지를 학습, 교육 및 즐거움을 위해 무료로 제공합니다.
- 스미소니언 오픈 액세스
- 퍼블릭 도메인 검토: 이제 퍼블릭 도메인으로 분류된 저작물, 즉 모든 사람이 제한 없이 자유롭게 즐기고, 공유하고, 구축할 수 있는 저작권이 없는 자료의 광대한 공유지에 초점을 맞췄습니다.
- 의회 도서관
- 생물다양성유산도서관
- 메트 오픈 액세스
- 국립 미술관 오픈 액세스
- 시카고 아트 인스티튜트 오픈 액세스
- 뉴욕 공립 도서관 공개 도메인 컬렉션
- Kunst und Gewerbe 함부르크 Steintorplatz 박물관
- 페어페이스
- 개념적 캡션
- 빨리, 그려라!
- 이미지 열기
- 시각적 질문 답변
- TensorFlow 꽃
- 스탠포드 온라인 제품 데이터 세트
- DeepMind 3D 모양
- 통과: 개인 정보 보호 문제를 크게 줄이면서 고품질 사전 훈련에 사용할 수 있는 사람 없이 자가 감독 사전 훈련을 대신하는 ImageNet입니다.
얼굴/사람(제한된 라이센스)
- LFW(야생의 라벨이 붙은 얼굴)
- 셀레바
- LFWA+
- 셀렙마스크-HQ
- CelebA-스푸핑
- UTK페이스
- SSHQ: 전신 1024 x 512px
다른
제품/앱
- 예술 사육자
- 중간 여정
- 달레2(OpenAI)
- Runway - AI 기반 비디오 편집기.
- Facet AI - AI 기반 이미지 편집기.
- Adobe Sensei - Creative Cloud 제품군을 위한 AI 기반 기능입니다.
- NVIDIA AI 데모
- ClipDrop 및 cleanup.pictures
아티스트
예술, ML, 디자인의 교차점에서 흥미로운 일을 하는 사람들의 대략적인 목록입니다.
- 메모 활성화
- 신경 브리콜라주(헬레나 사린)
- 소피아 크레스포
- 로렌 맥카시
- 필립 슈미트
- 안나 리들러
- 톰 화이트
- 이보나 타우
- 트레버 파글렌
- 사샤 스타일스
- 마리오 클링게만
- 테가 브레인
- 오누오하 미미
- 앨리슨 패리쉬
- 캐롤라인 신더스
- 로비 바라트
- 카일 맥도날드
- 골란 레빈
기관/장소
- 창의적인 탐구를 위한 STUDIO
- ITP @ NYU
- 회색지대예술재단
- 안정성 AI(Eleuther, LAION 등)
- 골드스미스 @ 런던 대학교
- UCLA 디자인 미디어 아트
- 버클리 뉴미디어 센터
- Google 아티스트와 기계 지능
- 구글 크리에이티브 랩
- Google Cultural Institute의 연구실
- Sony CSL(도쿄 및 파리)
관련 목록 및 컬렉션
- 예술을 위한 머신러닝
- AI 예술을 위한 도구 및 리소스(약리학) - 생성적인 텍스트-이미지 변환 기술과 일반 도구 및 리소스를 위한 Google Colab 노트북의 큰 목록입니다.
- Awesome Generative Deep Art - Generative Deep Art/Generative AI 프로젝트, 도구, 아트워크 및 모델의 선별된 목록
기여
기여를 환영합니다! 먼저 기여 지침을 읽어보세요.