텍스트-이미지 생성 연구 모음
이 GitHub 저장소에는 T2I(텍스트-이미지 변환) 생성 작업과 관련된 논문과 리소스가 요약되어 있습니다.
메모
이 문서는 전체 GitHub 저장소의 homepage
역할을 합니다. 논문은 다양한 연구 방향, 출판 연도, 학회별로 요약되어 있습니다.
topics
섹션에는 T2I 생성의 전제 조건, 다른 기술(예: Diffusion Transformer, LLM, Mamba 등)을 사용한 확산 모델, 기타 작업을 위한 확산 모델 등 다양한 속성에 따라 T2I 생성과 관련성이 높은 논문이 요약되어 있습니다.
이 저장소에 대한 제안 사항이 있으면 언제든지 새로운 이슈를 시작하거나 끌어오기 요청을 보내주세요.
이 GitHub repo의 최근 소식은 다음과 같습니다.
[11월. 19일] 우리는 해당 코드, 모델 가중치 및 테스트 벤치마크 DAVIS-Edit
오픈 소스로 공개한 "StableV2V: Video-to-Video Editing에서 형태 일관성 안정화"라는 제목의 최신 논문을 발표했습니다. 링크를 통해 자유롭게 확인해보세요!
자세한 내용을 보려면 클릭하세요.
- [4월. 26일] 새로운 주제 업데이트: 확산 모델과 연합 학습을 만나다. 자세한 내용은
topics
섹션을 참조하세요! - [3월. 28일] AAAI 2024 공식 논문 목록이 공개되었습니다! PDF 및 BibTeX 참조의 공식 버전이 이에 따라 업데이트됩니다.
- [3월. 21일]
topics
섹션이 업데이트되었습니다. 이 섹션에서는 확산 모델(예: 확산 변환기 기반 방법, NLP용 확산 모델, LLM과 통합된 확산 모델 등)의 다른 속성에 따라 요약된 논문 목록을 제공하는 것을 목표로 합니다. 이 논문의 해당 참고 문헌도 reference.bib
로 결론지었습니다. reference.bib
. - [3월. 7일] 사용 가능한 모든 CVPR, ICLR 및 AAAI 2024 논문과 참고자료가 업데이트되었습니다.
- [3월. 1차] 기성 텍스트-이미지 생성 제품 및 툴킷 의 웹사이트를 요약합니다.
내용물
- 제품
- 할 일 목록
- 서류
- 설문조사 서류
- 텍스트-이미지 생성
- 2024년
- 2023년
- 2022년
- 2021년
- 2020년
- 조건부 텍스트-이미지 생성
- 개인화된 텍스트-이미지 생성
- 텍스트 기반 이미지 편집
- 텍스트 이미지 생성
- 데이터 세트
- 툴킷
- Q&A
- 참고자료
- 스타의 역사
할 일 목록
- 학회 발표 논문
- 사전 인쇄 arXiv 논문 및 누락된 논문의 정기 유지 관리
<맨 위로>
제품
이름 | 년도 | 웹사이트 | 특산품 |
---|
안정확산 3 | 2024년 | 링크 | 확산변압기 기반 안정확산 |
안정적인 비디오 | 2024년 | 링크 | 고품질 고해상도 이미지 |
DALL-E 3 | 2023년 | 링크 | ChatGPT와 협업 |
표의 문자 | 2023년 | 링크 | 텍스트 이미지 |
운동장 | 2023년 | 링크 | 미적 이미지 |
HiDream.ai | 2023년 | 링크 | - |
대시툰 | 2023년 | 링크 | 텍스트를 만화로 변환하는 생성 |
휘 | 2023년 | 링크 | WHEE는 T2I 세대, I2I 세대, SR, 인페인팅, 아웃페인팅, 이미지 변형, 가상 체험 등에 적용할 수 있는 온라인 AI 생성 도구입니다. |
베가 AI | 2023년 | 링크 | Vega AI는 온라인 AI 생성 도구로 T2I 세대, I2I 세대, SR, T2V 세대, I2V 세대 등에 적용할 수 있습니다. |
우지에 AI | 2022년 | 링크 | 중국어 이름은 "无界AI"이며 AIGC 리소스와 온라인 서비스를 제공합니다. |
중간 여정 | 2022년 | 링크 | 강력한 클로즈 소스 생성 도구 |
<맨 위로>
서류
설문조사 서류
- 텍스트-이미지 생성
- 2024년
- ACM 컴퓨팅 설문조사
- 확산 모델: 방법 및 응용 분야에 대한 종합적인 조사 [논문]
- 2023년
- 티파미
- 비전의 확산 모델: 설문조사 [논문] [코드]
- arXiv
- 생성 AI의 텍스트-이미지 확산 모델: 설문조사 [논문]
- 비주얼 컴퓨팅을 위한 확산 모델의 최신 기술 [논문]
- 2022년
- arXiv
- 시력을 위한 효율적인 확산 모델: 설문조사 [논문]
- 조건부 텍스트-이미지 생성
- 2024년
- arXiv
- 텍스트-이미지 확산 모델을 사용한 제어 가능한 생성: 설문조사 [논문]
- 텍스트 기반 이미지 편집
- 2024년
- arXiv
- 확산모델 기반 이미지 편집: 설문조사 [논문] [코드]
<맨 위로>
텍스트-이미지 생성
- 2024년
- CVPR
- DistriFusion: 고분해능 확산 모델을 위한 분산 병렬 추론 [논문] [코드]
- InstanceDiffusion: 이미지 생성을 위한 인스턴스 수준 제어 [문서] [코드] [프로젝트]
- ECLIPSE: 이미지 생성을 위한 리소스 효율적인 텍스트-이미지 변환 [문서] [코드] [프로젝트] [데모]
- Instruct-Imagen: 다중 모드 명령을 사용한 이미지 생성 [논문]
- 텍스트-이미지 생성을 위한 연속 3D 단어 학습 [종이] [코드]
- HanDiffuser: 사실적인 손 모양을 사용한 텍스트-이미지 생성 [종이]
- 텍스트-이미지 생성을 위한 풍부한 인적 피드백 [논문]
- MarkovGen: 효율적인 텍스트-이미지 생성을 위한 구조화된 예측 [논문]
- 텍스트-이미지 생성을 위한 사용자 정의 지원[종이]
- ADI: 작업 맞춤형 텍스트-이미지 생성을 위한 분리된 식별자 학습 [논문] [프로젝트]
- UFOGen: 확산 GAN을 통해 대규모 텍스트-이미지 생성을 한 번 전달합니다. [논문]
- 책임 있는 텍스트-이미지 생성을 위한 자체 발견 해석 가능한 확산 잠재 방향 [논문]
- 맞춤형 비전: 개인화된 프롬프트 재작성을 통한 텍스트-이미지 생성 향상 [논문] [코드]
- CoDi: 더 높은 충실도와 더 빠른 이미지 생성을 위한 조건부 확산 증류 [논문] [코드] [프로젝트] [데모]
- 잠재 확산 모델과 암시적 신경 디코더를 사용한 임의 규모 이미지 생성 및 업샘플링 [논문]
- 텍스트 기반 인간 이미지 생성을 위한 확산 모델에서 인간 중심 사전 변수의 효과적인 사용을 위해 [논문]
- ElasticDiffusion: 훈련이 필요 없는 임의 크기 이미지 생성 [종이] [코드] [프로젝트] [데모]
- CosmicMan: 인간을 위한 텍스트-이미지 기반 모델 [종이] [코드] [프로젝트]
- PanFusion: 텍스트의 안정적인 확산을 360° 파노라마 이미지 생성으로 길들이기 [종이] [코드] [프로젝트]
- 지능형 그림: 잠재 확산 모델을 통한 개방형 시각적 스토리텔링 [논문] [코드] [프로젝트]
- 확산 기반 텍스트-이미지 생성의 확장성에 관하여 [논문]
- MuLAn: 제어 가능한 텍스트-이미지 생성을 위한 다층 주석 데이터 세트 [종이] [프로젝트] [데이터 세트]
- 텍스트-이미지 생성을 위한 다차원적 인간 선호도 학습 [논문]
- 텍스트-이미지 생성을 위한 동적 프롬프트 최적화 [논문]
- 강화 학습을 통한 다양한 이미지 생성을 위한 확산 모델 훈련 [논문]
- 적대적 텍스트에서 지속적인 이미지 생성까지 [논문] [프로젝트] [동영상]
- EmoGen: 텍스트-이미지 확산 모델을 이용한 감성 이미지 콘텐츠 생성 [논문] [코드]
- ECCV
- 텍스트-이미지 생성을 위한 다양한 언어 모델과 생성적 비전 모델 연결 [논문] [코드] [프로젝트]
- 텍스트-이미지 확산 모델을 사용한 구문 수준 접지 탐색 [논문] [코드]
- 올바른 방법: 텍스트-이미지 모델의 공간 일관성 개선 [문서] [코드] [프로젝트]
- 인도어 전반에 걸쳐 텍스트-이미지 생성 편향 탐색 [논문] [프로젝트]
- 인간 피드백 반전으로 텍스트-이미지 확산 모델 보호 [논문]
- 현실과 환상의 제작: LLM 지원 프롬프트 해석을 통한 장면 생성 [논문] [코드] [프로젝트] [데이터 세트]
- 텍스트-이미지 확산 모델의 안정적이고 효율적인 개념 삭제 [논문] [코드]
- 텍스트-이미지 확산 모델을 사용한 구문 수준 접지 탐색 [논문] [코드]
- StyleTokenizer: 확산 모델 제어를 위한 단일 인스턴스로 이미지 스타일 정의 [문서] [코드]
- PEA-확산: 비영어권 텍스트-이미지 생성에서 지식 증류를 사용한 매개변수 효율적인 어댑터 [논문] [코드]
- 텍스트-이미지 생성의 일반화를 방해하는 현상 공간 왜곡 [논문] [코드]
- 앵무새: 텍스트-이미지 생성을 위한 파레토 최적 다중 보상 강화 학습 프레임워크 [논문]
- 텍스트-이미지 생성을 위한 다양한 언어 모델과 생성적 비전 모델 연결 [논문] [코드] [프로젝트]
- MobileDiffusion: 모바일 장치에서 즉각적인 텍스트-이미지 생성 [논문]
- PixArt-Σ: 4K 텍스트-이미지 생성을 위한 확산 변환기의 약-강 훈련 [논문] [코드] [프로젝트]
- CogView3: 릴레이 확산을 통해 더 세밀하고 빠른 텍스트-이미지 생성 [문서] [코드]
- ICLR
- 고해상도 이미지 합성을 위한 패치된 노이즈 제거 확산 모델 [논문] [코드]
- Relay Diffusion: 이미지 합성을 위해 해상도 간 확산 과정을 통일 [논문] [코드]
- SDXL: 고해상도 이미지 합성을 위한 잠재 확산 모델 개선 [논문] [코드]
- 구성하고 정복하세요: 확산 기반 3D 깊이 인식 합성 이미지 합성 [논문] [코드]
- PixArt-α: 사실적인 텍스트-이미지 합성을 위한 확산 변환기의 빠른 교육 [문서] [코드] [프로젝트] [데모]
- 시그라프
- RGB←X: 재료 및 조명 인식 확산 모델을 사용한 이미지 분해 및 합성 [종이] [프로젝트]
- AAAI
- 텍스트-이미지 합성을 위한 의미 인식 데이터 증강 [논문]
- 추상적 개념을 위한 텍스트-이미지 생성 [논문]
- arXiv
- 텍스트-이미지 생성을 위한 확산 모델의 자체 재생 미세 조정 [논문]
- RPG: 텍스트-이미지 확산 마스터하기: 멀티모달 LLM을 사용한 요약, 계획 및 생성 [논문] [코드]
- Playground v2.5: 텍스트-이미지 생성에서 미적 품질 향상을 위한 세 가지 통찰력 [논문] [코드]
- ResAdapter: 확산 모델을 위한 도메인 일치 해상도 어댑터 [논문] [코드] [프로젝트]
- InstantID: 몇 초 만에 제로샷 신원 보존 생성 [문서] [코드] [프로젝트] [데모]
- PIXART-δ: 잠재 일관성 모델을 사용한 빠르고 제어 가능한 이미지 생성 [논문] [코드]
- ELLA: 향상된 의미 정렬을 위해 LLM을 갖춘 확산 모델 장착 [논문] [코드] [프로젝트]
- Text2Street: 스트리트 뷰를 위한 제어 가능한 텍스트-이미지 생성 [종이]
- LayerDiffuse: 잠재 투명도를 이용한 투명 이미지 레이어 확산 [종이] [코드]
- SD3-Turbo: 잠재 적대적 확산 증류를 이용한 고속 고해상도 이미지 합성 [논문]
- StreamMultiDiffusion: 지역 기반 의미 제어를 통한 실시간 대화형 생성 [논문] [코드]
- SVGDreamer: 확산 모델을 사용한 텍스트 기반 SVG 생성 [논문] [코드] [프로젝트]
- PromptCharm: 다중 모드 프롬프트 및 개선을 통한 텍스트-이미지 생성 [논문]
- YOSO: 한 번만 샘플링하면 됩니다: 자가 협력 확산 GAN을 통해 1단계 텍스트-이미지 합성 길들이기 [논문] [코드]
- SingDiffusion: 확산 모델의 시간 간격 끝점에서 특이점 다루기 [논문] [코드]
- CoMat: 이미지-텍스트 개념 매칭을 통한 텍스트-이미지 확산 모델 정렬 [종이] [코드] [프로젝트]
- StoryDiffusion: 장거리 이미지 및 비디오 생성을 위한 일관된 Self-Attention [논문] [코드] [프로젝트] [데모]
- 세분화된 ID 및 속성 제어를 갖춘 사전 훈련된 확산 모델을 위한 얼굴 어댑터 [논문] [프로젝트]
- LinFusion: 1 GPU, 1분, 16K 이미지 [종이] [코드] [프로젝트] [데모]
- OmniGen: 통합 이미지 생성 [논문] [코드]
- CoMPaSS: 텍스트-이미지 확산 모델의 공간적 이해 강화 [논문] [코드]
- 기타
<맨 위로>
- 2023년
- CVPR
- GigaGAN: 텍스트-이미지 합성을 위한 GAN 확장 [논문] [복제된 코드] [프로젝트] [동영상]
- ERNIE-ViLG 2.0: 지식 강화된 잡음 제거 전문가 혼합을 통해 텍스트-이미지 확산 모델 개선 [논문]
- 텍스트-이미지 생성을 위한 이동 확산 [종이] [코드]
- GALIP: 텍스트-이미지 합성을 위한 생성적 적대 클립 [논문] [코드]
- 전문가 확산: 보이지 않는 스타일을 학습하기 위한 플러그 앤 플레이 샘플 효율적인 텍스트-이미지 확산 모델 미세 조정 [논문] [코드]
- 텍스트-이미지 생성을 위한 검증 가능하고 재현 가능한 인간 평가를 향하여 [논문]
- RIATIG: 자연스러운 프롬프트를 통한 신뢰할 수 있고 눈에 띄지 않는 적대적 텍스트-이미지 생성 [논문] [코드]
- ICCV
- DiffFit: 간단한 매개변수 효율적인 미세 조정을 통해 대규모 확산 모델의 이전 가능성 잠금 해제 [논문] [코드] [데모]
- NeurIPS
- ImageReward: 텍스트-이미지 생성을 위한 인간 선호도 학습 및 평가 [논문] [코드]
- RAPHAEL : 확산 경로의 대규모 혼합을 통한 텍스트-이미지 생성 [논문] [프로젝트]
- 확산 모델의 언어 바인딩: Attention Map 정렬을 통한 속성 대응 향상 [논문] [코드]
- DenseDiffusion: 주의 변조를 통한 조밀한 텍스트-이미지 생성 [논문] [코드]
- ICLR
- 구성적 텍스트-이미지 합성을 위한 훈련이 필요 없는 구조적 확산 지침 [논문] [코드]
- ICML
- StyleGAN-T: 빠른 대규모 텍스트-이미지 합성을 위한 GAN의 힘 잠금 해제 [논문] [코드] [프로젝트] [동영상]
- Muse: Masked Generative Transformers를 통한 텍스트-이미지 생성 [논문] [복제 코드] [프로젝트]
- UniDiffusers: 하나의 변압기가 규모에 따른 다중 모드 확산의 모든 분포에 적합합니다. [논문] [코드]
- ACMMM
- SUR-어댑터: 대규모 언어 모델을 사용하여 텍스트-이미지 사전 훈련된 확산 모델 강화 [논문] [코드]
- ControlStyle: 확산 우선순위를 사용한 텍스트 기반 스타일화된 이미지 생성 [논문]
- 시그라프
- 참석 및 흥분: 텍스트-이미지 확산 모델을 위한 주의 기반 의미론적 안내 [논문] [코드] [프로젝트] [데모]
- arXiv
- P+: 텍스트-이미지 생성의 확장된 텍스트 조건화 [종이]
- SDXL-Turbo: 적대적 확산 증류 [종이] [코드]
- Wuerstchen: 대규모 텍스트-이미지 확산 모델을 위한 효율적인 아키텍처 [논문] [코드]
- StreamDiffusion: 실시간 대화형 생성을 위한 파이프라인 수준 솔루션 [논문] [프로젝트]
- ParaDiffusion: 정보 강화 확산 모델을 사용한 단락-이미지 생성 [논문] [코드]
- 기타
- DALL-E 3: 더 나은 캡션으로 이미지 생성 개선 [문서]
<맨 위로>
- 2022년
- CVPR
- 안정 확산: 잠재 확산 모델을 사용한 고해상도 이미지 합성 [논문] [코드] [프로젝트]
- 텍스트-이미지 합성을 위한 벡터 양자화 확산 모델 [논문] [코드]
- DF-GAN: 텍스트-이미지 합성을 위한 간단하고 효과적인 기준선 [논문] [코드]
- LAFITE: 텍스트-이미지 생성을 위한 언어 없는 교육을 향하여 [논문] [코드]
- 객체 유도 조인트 디코딩 변환기를 기반으로 한 텍스트-이미지 합성 [논문]
- StyleT2I: 구성 및 충실도가 높은 텍스트-이미지 합성을 향하여 [논문] [코드]
- ECCV
- Make-A-Scene: 인간 우선순위를 사용한 장면 기반 텍스트-이미지 생성 [문서] [코드] [데모]
- 제어된 텍스트를 이미지 생성으로 추적[종이]
- Token-Critic [Paper]를 통해 향상된 마스크 이미지 생성
- VQGAN-CLIP: 자연어를 사용한 오픈 도메인 이미지 생성 및 조작 [논문] [코드]
- TISE: 텍스트-이미지 합성 평가를 위한 측정항목 가방 [논문] [코드]
- StoryDALL-E: 스토리 지속을 위해 사전 훈련된 텍스트-이미지 변환기 적용 [논문] [코드] [데모]
- NeurIPS
- CogView2: 계층적 변환기를 통해 더 빠르고 더 나은 텍스트-이미지 생성 [문서] [코드]
- Imagen: 깊은 언어 이해를 갖춘 사실적인 텍스트-이미지 확산 모델 [논문] [복제된 코드] [프로젝트] [ Imagen 2 ]
- ACMMM
- Adma-GAN: 텍스트-이미지 생성을 위한 속성 기반 메모리 증강 GAN [논문] [코드]
- 텍스트-이미지 생성을 위한 배경 레이아웃 생성 및 객체 지식 전달 [논문]
- DSE-GAN: 텍스트-이미지 생성을 위한 동적 의미 진화 생성적 적대 네트워크 [논문]
- AtHom: 텍스트-이미지 합성에서 동형 훈련으로 자극된 두 가지 발산 주의 [논문]
- arXiv
- DALLE-2: CLIP 잠재성을 사용한 계층적 텍스트 조건부 이미지 생성 [논문]
- PITI: 사전 훈련은 이미지-이미지 변환에 필요한 전부입니다. [논문] [코드]
<맨 위로>
- 2021년
- ICCV
- DAE-GAN: 텍스트-이미지 합성을 위한 동적 측면 인식 GAN [논문] [코드]
- NeurIPS
- CogView: Transformers를 통한 텍스트-이미지 생성 마스터링 [문서] [코드] [데모]
- UFC-BERT: 조건부 이미지 합성을 위한 다중 모드 제어 통합 [논문]
- ICML
- DALLE-1: 제로샷 텍스트-이미지 생성 [문서] [복제 코드]
- ACMMM
- 텍스트-이미지 합성을 위한 주기 일관성 있는 역 GAN [논문]
- R-GAN: 생성적 적대 신경망을 통해 합리적인 텍스트-이미지 합성을 위한 인간과 유사한 방식 탐색 [논문]
<맨 위로>
- 2020년
- ACMMM
- 미적 레이아웃을 통한 텍스트-이미지 합성 [종이]
<맨 위로>
조건부 텍스트-이미지 생성
- 2024년
- CVPR
- 장소: 의미론적 이미지 합성을 위한 적응형 레이아웃-의미론적 융합 [논문]
- 원샷 구조 인식 양식화된 이미지 합성 [논문]
- 주의 재초점을 통한 기반 텍스트-이미지 합성 [논문] [코드] [프로젝트] [데모]
- 자세 유도 인물 이미지 합성을 위한 대략적에서 미세한 잠재 확산 [논문] [코드]
- DetDiffusion: 향상된 데이터 생성 및 인식을 위한 생성 및 인식 모델의 시너지 효과 [논문]
- CAN: 제어된 이미지 생성을 위한 상태 인식 신경망 [논문]
- SceneDiffusion: 레이어드 Scene Diffusion을 사용하여 무엇이든 이동합니다. [종이]
- Zero-Painter: 텍스트-이미지 합성을 위한 교육이 필요 없는 레이아웃 제어 [문서] [코드]
- MIGC: 텍스트-이미지 합성을 위한 다중 인스턴스 생성 컨트롤러 [논문] [코드] [프로젝트]
- FreeControl: 모든 조건의 텍스트-이미지 확산 모델에 대한 학습이 필요 없는 공간 제어 [문서] [코드] [프로젝트]
- ECCV
- PreciseControl: 세분화된 속성 제어를 통해 텍스트-이미지 확산 모델 강화 [문서] [코드] [프로젝트]
- AnyControl: 텍스트-이미지 생성에 대한 다양한 제어 기능을 사용하여 아트워크 만들기 [종이] [코드]
- ICLR
- 점진적 조건부 확산 모델을 사용한 자세 기반 이미지 합성 발전 [논문] [코드]
- WACV
- 교차 주의 안내를 통한 훈련 없는 레이아웃 제어 [논문] [코드] [프로젝트] [데모]
- AAAI
- SSMG: 자유 형식 레이아웃-이미지 생성을 위한 공간 의미 지도 기반 확산 모델 [논문]
- 확산 모델의 주의 지도 제어를 사용한 구성적 텍스트-이미지 합성 [논문] [코드]
- arXiv
- DEADiff: 얽힌 표현을 사용한 효율적인 양식화 확산 모델 [논문]
- InstantStyle: 텍스트-이미지 생성에서 스타일 보존을 위한 무료 점심 [문서] [코드] [프로젝트]
- ControlNet++: 효율적인 일관성 피드백으로 조건부 제어 개선 [논문] [프로젝트]
- Hunyuan-DiT: 세밀한 중국어 이해를 갖춘 강력한 다중 해상도 확산 변환기 [논문] [코드] [프로젝트]
- DialogGen: 다중 회전 텍스트-이미지 생성을 위한 다중 모드 대화형 대화 시스템 [논문] [코드] [프로젝트]
- ControlNeXt: 이미지 및 비디오 생성을 위한 강력하고 효율적인 제어 [문서] [코드] [프로젝트]
- UniPortrait: 신원 보존 단일 및 다중 인간 이미지 개인화를 위한 통합 프레임워크 [문서] [코드] [프로젝트] [데모]
- OmniControl: 확산 변압기를 위한 최소 및 범용 제어 [종이] [코드] [데모]
- UnZipLoRA: 단일 이미지에서 콘텐츠와 스타일 분리하기 [페이퍼] [프로젝트]
- CtrLoRA: 제어 가능한 이미지 생성을 위한 확장 가능하고 효율적인 프레임워크 [논문] [코드]
- 하드 바인딩 및 소프트 개선을 통한 지역 인식 텍스트-이미지 생성 [용지] [코드]
<맨 위로>
- 2023년
- CVPR
- GLIGEN: 개방형 접지 텍스트-이미지 생성 [문서] [코드] [프로젝트] [데모] [비디오]
- 잔여 양자화를 이용한 자기회귀 영상 생성 [종이] [코드]
- SpaText: 제어 가능한 이미지 생성을 위한 공간 텍스트 표현 [논문] [프로젝트] [동영상]
- 의미 공간 인식 GAN을 사용한 텍스트-이미지 생성 [논문]
- ReCo: 지역 제어 텍스트-이미지 생성 [문서] [코드]
- LayoutDiffusion: 레이아웃-이미지 생성을 위한 제어 가능한 확산 모델 [논문] [코드]
- ICCV
- ControlNet: 텍스트-이미지 확산 모델에 조건부 제어 추가 [논문] [코드]
- SceneGenie: 이미지 합성을 위한 장면 그래프 유도 확산 모델 [논문] [코드]
- ZestGuide: 텍스트-이미지 확산 모델을 위한 제로샷 공간 레이아웃 조절 [논문]
- ICML
- 작곡가: 구성 가능한 조건을 갖춘 창의적이고 제어 가능한 이미지 합성 [종이] [코드] [프로젝트]
- MultiDiffusion: 제어된 이미지 생성을 위한 융합 확산 경로 [문서] [코드] [비디오] [프로젝트] [데모]
- 시그라프
- 스케치 기반 텍스트-이미지 확산 모델 [종이] [재현 코드] [프로젝트]
- NeurIPS
- Uni-ControlNet: 텍스트-이미지 확산 모델에 대한 올인원 제어 [논문] [코드] [프로젝트]
- 프롬프트 확산: 확산 모델을 위한 맥락 내 학습 잠금 해제 [논문] [코드] [프로젝트]
- WACV
- 무료로 더 많은 제어 기능을 제공합니다! 의미 확산 안내를 이용한 이미지 합성 [논문]
- ACMMM
- LayoutLLM-T2I: 텍스트-이미지 생성을 위해 LLM에서 레이아웃 지침 도출 [논문]
- arXiv
- T2I-어댑터: 텍스트-이미지 확산 모델에 대해 보다 제어 가능한 기능을 발굴하기 위한 학습 어댑터 [논문] [코드] [데모]
- BLIP-확산: 제어 가능한 텍스트-이미지 생성 및 편집을 위한 사전 훈련된 주제 표현 [종이] [코드]
- 제어 가능한 이미지 합성을 위한 후기 제약 확산 지침 [논문] [코드]
- 2022년
- ICLR
- SDEdit: 확률적 미분 방정식을 사용한 유도 이미지 합성 및 편집 [논문] [코드] [프로젝트]
<맨 위로>
개인화된 텍스트-이미지 생성
- 2024년
- CVPR
- 개인화된 텍스트-이미지 생성을 위한 교차 초기화 [논문]
- StyleGAN이 안정적인 확산을 만났을 때: 개인화된 이미지 생성을 위한 W+ 어댑터 [논문] [코드] [프로젝트]
- Shared Attention을 통한 스타일 정렬 이미지 생성 [논문] [코드] [프로젝트]
- InstantBooth: 테스트 시간 미세 조정 없이 개인화된 텍스트-이미지 생성 [문서] [프로젝트]
- 충실도가 높은 사람 중심의 피사체-이미지 합성 [논문]
- RealCustom: 실시간 오픈 도메인 텍스트-이미지 사용자 정의를 위한 실제 텍스트 단어 범위 좁히기 [논문] [프로젝트]
- DisenDiff: 풀린 텍스트-이미지 개인화를 위한 주의 보정 [논문] [코드]
- FreeCustom: 멀티 컨셉 구성을 위한 튜닝 없는 맞춤형 이미지 생성 [논문] [코드] [프로젝트]
- 개념 기반 텍스트-이미지 생성을 위한 개인화된 잔차 [논문]
- 주제에 구애받지 않는 지침을 통해 주제 중심 이미지 합성 개선 [논문]
- JeDi: 미세 조정이 필요 없는 개인화된 텍스트-이미지 생성을 위한 공동 이미지 확산 모델 [논문]
- 영향력 워터마크를 통한 개인화된 텍스트-이미지 생성 대응 [논문]
- ECCV
- Be Yourself: 다중 주제 텍스트-이미지 생성을 위한 제한된 주의 [논문] [프로젝트]
- 강력하고 유연함: 강화 학습을 통한 개인화된 텍스트-이미지 생성 [논문] [코드]
- TIGC: 이미지 및 텍스트 안내를 통한 조정 없는 이미지 사용자 정의 [논문] [코드] [프로젝트]
- MasterWeaver: 개인화된 텍스트-이미지 생성을 위한 편집 가능성 및 얼굴 신원 길들이기 [문서] [코드] [프로젝트]
- AAAI
- 맞춤형 이미지 생성을 위한 분리된 텍스트 임베딩 [논문]
- arXiv
- FlashFace: 충실도 높은 신원 보존을 통한 인간 이미지 개인화 [논문] [코드] [프로젝트]
- MoMA: 빠른 개인화 이미지 생성을 위한 다중 모드 LLM 어댑터 [논문]
- IDAdapter: 텍스트-이미지 모델의 조정 없는 개인화를 위한 혼합 기능 학습 [논문]
- CoRe: 텍스트-이미지 개인화를 위한 컨텍스트 정규화된 텍스트 임베딩 학습 [논문]
- 자신을 상상해 보세요: 튜닝이 필요 없는 개인화 이미지 생성 [논문] [프로젝트]
- 2023년
- CVPR
- Custom Diffusion: 텍스트-이미지 확산의 다개념 커스터마이징 [종이] [코드] [프로젝트]
- DreamBooth: 주제 중심 생성을 위한 텍스트-이미지 확산 모델 미세 조정 [논문] [코드] [프로젝트]
- ICCV
- ELITE: 맞춤형 텍스트-이미지 생성을 위해 시각적 개념을 텍스트 임베딩으로 인코딩 [논문] [코드]
- ICLR
- 텍스트 반전: 이미지는 한 단어의 가치가 있습니다: 텍스트 반전을 사용하여 텍스트-이미지 생성 개인화 [종이] [코드] [프로젝트]
- 시그라프
- Break-A-Scene: 단일 이미지에서 여러 개념 추출 [논문] [코드]
- 텍스트-이미지 모델의 빠른 개인화를 위한 인코더 기반 도메인 튜닝 [논문] [프로젝트]
- LayerDiffusion: 확산 모델을 사용한 계층화 제어 이미지 편집 [종이]
- arXiv
- DreamTuner: 주제 중심의 생성에는 단일 이미지로 충분합니다. [논문] [프로젝트]
- PhotoMaker: 누적 ID 삽입을 통해 사실적인 인물 사진 사용자 정의 [종이] [코드]
- IP 어댑터: 텍스트-이미지 확산 모델을 위한 텍스트 호환 이미지 프롬프트 어댑터 [논문] [코드] [프로젝트]
- FastComposer: 국부적인 주의를 기울여 조정이 필요 없는 다중 피사체 이미지 생성 [논문] [코드]
<맨 위로>
텍스트 기반 이미지 편집
- 2024년
- CVPR
- InfEdit: 자연어를 사용한 반전 없는 이미지 편집 [논문] [코드] [프로젝트]
- 텍스트 기반 이미지 편집을 위한 안정적인 확산의 교차 및 셀프 어텐션 이해를 향하여 [논문]
- 텍스트 기반 이미지 편집을 위한 이중 귀추적 반사실 추론 [논문] [코드]
- 지시사항에 집중하세요: 주의 변조를 통한 세밀하고 다중 지시사항 이미지 편집 [논문] [코드]
- 텍스트 기반 잠재 확산 이미지 편집을 위한 대비 노이즈 제거 점수 [논문]
- DragDiffusion: 대화형 점 기반 이미지 편집을 위한 확산 모델 활용 [논문] [코드]
- DiffEditor: 확산 기반 이미지 편집의 정확성과 유연성 향상 [논문]
- FreeDrag: 안정적인 점 기반 이미지 편집을 위한 기능 끌기 [용지] [코드]
- 학습 가능 영역을 통한 텍스트 기반 이미지 편집 [논문] [코드] [프로젝트] [동영상]
- LEDITS++: 텍스트-이미지 모델을 사용한 무제한 이미지 편집 [문서] [코드] [프로젝트] [데모]
- SmartEdit: 대규모 언어 모델을 사용한 복잡한 명령 기반 이미지 편집 탐색 [논문] [코드] [프로젝트]
- 모두를 위한 하나 편집: 대화형 일괄 이미지 편집 [문서] [코드] [프로젝트]
- DiffMorpher: 이미지 모핑을 위한 확산 모델의 기능 활용 [문서] [코드] [프로젝트] [데모]
- TiNO-Edit: 강력한 확산 기반 이미지 편집을 위한 시간 단계 및 노이즈 최적화 [문서] [코드]
- 현장 사람: 인간-물체 상호 작용 이미지 편집을 위한 연관 골격-유도 맵 생성 [논문] [프로젝트] [코드]
- 참조 이미지 편집: 참조 표현식을 통한 개체 수준 이미지 편집 [논문]
- 자기 감독 텍스트 안내 이미지 조작을 위한 신속한 증강 [논문]
- 악마는 디테일에 있다: 풍부한 디테일의 StyleGAN 반전 및 고품질 이미지 편집을 위한 StyleFeatureEditor [문서] [코드]
- ECCV
- RegionDrag: 확산 모델을 사용한 빠른 영역 기반 이미지 편집 [문서] [코드] [프로젝트] [데모]
- TurboEdit: 즉각적인 텍스트 기반 이미지 편집 [종이] [프로젝트]
- InstructGIE: 일반화 가능한 이미지 편집을 향하여 [논문]
- StableDrag: 포인트 기반 이미지 편집을 위한 안정적인 드래그 [Paper]
- 에타 반전: 확산 기반 실제 이미지 편집을 위한 최적의 에타 함수 설계 [논문] [코드] [프로젝트]
- SwapAnything: 개인화된 이미지 편집에서 임의의 개체 교환 활성화 [종이] [코드] [프로젝트]
- Guide-and-Rescale: 효과적인 조정 없는 실제 이미지 편집을 위한 자체 안내 메커니즘 [논문]
- FreeDiff: 확산 모델을 사용한 이미지 편집을 위한 점진적 주파수 절단 [논문] [코드]
- 대화형 이미지 편집을 위한 게으른 확산 변환기 [논문] [프로젝트]
- ByteEdit: 생성 이미지 편집 강화, 규정 준수 및 가속화 [논문] [프로젝트]
- ICLR
- 멀티모달 대형 언어 모델을 통한 명령어 기반 이미지 편집 안내 [논문] [코드] [프로젝트]
- 무작위성의 축복: 일반 확산 기반 이미지 편집에서 SDE가 ODE를 능가함 [논문] [코드] [프로젝트]
- 모션 가이던스: 미분 가능한 모션 추정기를 사용한 확산 기반 이미지 편집 [논문] [코드] [프로젝트]
- 이미지 편집을 위한 객체 인식 반전 및 재조립 [종이] [코드] [프로젝트]
- 노이즈 맵 지침: 실제 이미지 편집을 위한 공간 컨텍스트를 사용한 반전 [논문]
- AAAI
- 일관된 이미지 편집을 위한 튜닝 없는 반전 강화 제어 [종이]
- BARET: 대상 텍스트 반전을 통한 균형 잡힌 주의 기반 실제 이미지 편집 [논문]
- 캐시 지원 희소 확산 추론을 통해 텍스트-이미지 편집 가속화 [논문]
- 고충실도 확산 기반 이미지 편집 [종이]
- AdapEdit: 텍스트 기반 연속성에 민감한 이미지 편집을 위한 시공간 안내 적응 편집 알고리즘 [논문]
- TexFit: 확산 모델을 사용한 텍스트 기반 패션 이미지 편집 [논문]
- arXiv
- 프롬프트를 표시할 가치가 있는 항목: 얽힘 제어를 통한 다양한 이미지 편집 [종이] [코드]
- 모든 것을 지배하는 1차원 어댑터: 개념, 확산 모델 및 삭제 응용 프로그램 [종이] [코드] [프로젝트]
- EditWorld: 지시에 따른 이미지 편집을 위한 세계 역학 시뮬레이션 [논문] [코드] [프로젝트]
- ReasonPix2Pix: 고급 이미지 편집을 위한 명령 추론 데이터 세트 [논문]
- FlowEdit: 사전 학습된 흐름 모델을 사용한 반전 없는 텍스트 기반 편집 [논문] [코드] [프로젝트] [데모]
- 2023년
- CVPR
- 텍스트-이미지 확산 모델에서 분리 기능 발견 [논문] [코드]
- SINE: 텍스트-이미지 확산 모델을 사용한 단일 이미지 편집 [논문] [코드]
- Imagic: 확산 모델을 사용한 텍스트 기반 실제 이미지 편집 [논문]
- InstructPix2Pix: 이미지 편집 지침을 따르는 방법 학습 [문서] [코드] [데이터 세트] [프로젝트] [데모]
- 유도 확산 모델을 사용하여 실제 이미지를 편집하기 위한 널 텍스트 반전 [논문] [코드]
- ICCV
- MasaCtrl: 일관된 이미지 합성 및 편집을 위한 튜닝 없는 상호 Self-Attention 제어 [문서] [코드] [프로젝트] [데모]
- 텍스트-이미지 확산 모델을 사용하여 객체 수준 모양 변형 지역화 [문서] [코드] [프로젝트] [데모]
- ICLR
- SDEdit: 확률적 미분 방정식을 사용한 유도 이미지 합성 및 편집 [논문] [코드] [프로젝트]
- 2022년
- CVPR
- DiffusionCLIP: 강력한 이미지 조작을 위한 텍스트 기반 확산 모델 [논문] [코드]
<맨 위로>
텍스트 이미지 생성
- 2024년
- arXiv
- AnyText: 다국어 시각적 텍스트 생성 및 편집 [논문] [코드] [프로젝트]
- CVPR
- SceneTextGen: 문자 수준 확산 및 문맥 일관성이 통합된 레이아웃에 구애받지 않는 장면 텍스트 이미지 합성 [논문]
<맨 위로>
데이터 세트
- Microsoft COCO: 컨텍스트의 공통 개체 [문서] [데이터 세트]
- 개념적 캡션: 자동 이미지 캡션을 위한 정리된 하이퍼니드 이미지 대체 텍스트 데이터 세트 [논문] [데이터 세트]
- LAION-5B: 차세대 이미지-텍스트 모델 훈련을 위한 개방형 대규모 데이터 세트 [논문] [데이터 세트]
- PartiPrompts: 콘텐츠가 풍부한 텍스트-이미지 생성을 위한 자동 회귀 모델 확장 [논문] [데이터 세트] [프로젝트]
<맨 위로>
툴킷
이름 | 웹사이트 | 설명 |
---|
안정적인 확산 WebUI | 링크 | Gradio를 기반으로 구축되었으며 Stable Diffusion 체크포인트, LoRA 가중치, ControlNet 가중치 등을 실행하기 위해 로컬로 배포되었습니다. |
안정적인 확산 WebUI-forge | 링크 | Gradio를 기반으로 구축되었으며 Stable Diffusion 체크포인트, LoRA 가중치, ControlNet 가중치 등을 실행하기 위해 로컬로 배포되었습니다. |
푸커스 | 링크 | Gradio, 오프라인, 오픈 소스 및 무료를 기반으로 구축되었습니다. 수동으로 조정할 필요가 없으며 사용자는 프롬프트와 이미지에만 집중하면 됩니다. |
ComfyUI | 링크 | Stable Diffusion을 통해 맞춤형 워크플로우를 활성화하기 위해 로컬로 배포 |
치비타이 | 링크 | 커뮤니티 Stable Diffusion 및 LoRA 체크포인트를 위한 웹사이트 |
<맨 위로>
Q&A
- Q: 이 논문 목록의 컨퍼런스 순서는 무엇입니까?
- 이 논문 목록은 다음 순서에 따라 구성됩니다.
- CVPR
- ICCV
- ECCV
- WACV
- NeurIPS
- ICLR
- ICML
- ACMMM
- 시그라프
- AAAI
- arXiv
- 기타
- Q:
Others
무엇을 의미하나요?- 다음 연구 중 일부(예:
Stable Casacade
)는 arXiv에 기술 보고서를 게시하지 않습니다. 대신 그들은 공식 웹사이트에 블로그를 쓰는 경향이 있습니다. Others
카테고리는 이러한 종류의 연구를 의미합니다.
<맨 위로>
참고자료
reference.bib
파일에는 최신 이미지 인페인팅 논문, 널리 사용되는 데이터 세트 및 툴킷의 bibtex 참조가 요약되어 있습니다. 원본 참조를 기반으로 LaTeX
원고에서 결과가 보기 좋게 보이도록 다음과 같이 수정했습니다.
- 참조는 일반적으로
author-etal-year-nickname
형식으로 구성됩니다. 특히, 데이터 세트 및 툴킷의 참조는 imagenet
과 같은 nickname
으로 직접 구성됩니다. - 각 참고문헌에서 모든 학회/저널 이름은
Computer Vision and Pattern Recognition -> CVPR
과 같이 약어로 변환됩니다. - 모든 참조의
url
, doi
, publisher
, organization
, editor
, series
가 제거됩니다. - 모든 참고문헌의
pages
누락된 경우 추가됩니다. - 모든 논문 이름은 제목 케이스에 있습니다. 게다가, 제목 케이스가 일부 특정 템플릿에서도 잘 작동하는지 확인하기 위해 추가적인
{}
추가했습니다.
참고문헌 형식에 대한 다른 요구 사항이 있는 경우 DBLP 또는 Google Scholar에서 논문 이름을 검색하여 원본 참고문헌을 참조할 수 있습니다.
메모
homepage
및 topic
섹션의 참조는 reference.bib
에서 반복될 수 있습니다. 개인적으로 원하는 BibTeX
참조를 검색하려면 "Ctrl+F" / "Command+F"
사용하는 것이 좋습니다.
<맨 위로>
스타의 역사
<맨 위로>