awesome text to image studies 다운로드 - awesome text to image studies 소스 코드 다운로드

awesome text to image studies

AI 소스 코드

1.0.0

다운로드

텍스트-이미지 생성 연구 모음

이 GitHub 저장소에는 T2I(텍스트-이미지 변환) 생성 작업과 관련된 논문과 리소스가 요약되어 있습니다.

메모

이 문서는 전체 GitHub 저장소의 homepage 역할을 합니다. 논문은 다양한 연구 방향, 출판 연도, 학회별로 요약되어 있습니다.

topics 섹션에는 T2I 생성의 전제 조건, 다른 기술(예: Diffusion Transformer, LLM, Mamba 등)을 사용한 확산 모델, 기타 작업을 위한 확산 모델 등 다양한 속성에 따라 T2I 생성과 관련성이 높은 논문이 요약되어 있습니다.

이 저장소에 대한 제안 사항이 있으면 언제든지 새로운 이슈를 시작하거나 끌어오기 요청을 보내주세요.

이 GitHub repo의 최근 소식은 다음과 같습니다.

[11월. 19일] 우리는 해당 코드, 모델 가중치 및 테스트 벤치마크 DAVIS-Edit 오픈 소스로 공개한 "StableV2V: Video-to-Video Editing에서 형태 일관성 안정화"라는 제목의 최신 논문을 발표했습니다. 링크를 통해 자유롭게 확인해보세요!

자세한 내용을 보려면 클릭하세요.

[4월. 26일] 새로운 주제 업데이트: 확산 모델과 연합 학습을 만나다. 자세한 내용은 topics 섹션을 참조하세요!
[3월. 28일] AAAI 2024 공식 논문 목록이 공개되었습니다! PDF 및 BibTeX 참조의 공식 버전이 이에 따라 업데이트됩니다.
[3월. 21일] topics 섹션이 업데이트되었습니다. 이 섹션에서는 확산 모델(예: 확산 변환기 기반 방법, NLP용 확산 모델, LLM과 통합된 확산 모델 등)의 다른 속성에 따라 요약된 논문 목록을 제공하는 것을 목표로 합니다. 이 논문의 해당 참고 문헌도 reference.bib 로 결론지었습니다. reference.bib .
[3월. 7일] 사용 가능한 모든 CVPR, ICLR 및 AAAI 2024 논문과 참고자료가 업데이트되었습니다.
[3월. 1차] 기성 텍스트-이미지 생성 제품 및 툴킷 의 웹사이트를 요약합니다.

내용물

제품
할 일 목록
서류
- 설문조사 서류
- 텍스트-이미지 생성
  - 2024년
  - 2023년
  - 2022년
  - 2021년
  - 2020년
- 조건부 텍스트-이미지 생성
  - 2024년
  - 2023년
  - 2022년
- 개인화된 텍스트-이미지 생성
  - 2024년
  - 2023년
- 텍스트 기반 이미지 편집
  - 2024년
  - 2023년
  - 2022년
- 텍스트 이미지 생성
  - 2024년
데이터 세트
툴킷
Q&A
참고자료
스타의 역사

할 일 목록

학회 발표 논문
- NeurIPS 2024 논문 업데이트
- ECCV 2024 논문 업데이트
- CVPR 2024 논문 업데이트
  - 업데이트 ️ 논문 및 참고자료
  - arXiv 참조를 공식 버전으로 업데이트하세요
- AAAI 2024 논문 업데이트
  - 업데이트 ️ 논문 및 참고자료
  - arXiv 참조를 공식 버전으로 업데이트하세요
- ICLR 2024 논문 업데이트
- NeurIPS 2023 논문 업데이트
사전 인쇄 arXiv 논문 및 누락된 논문의 정기 유지 관리

<맨 위로>

제품

이름	년도	웹사이트	특산품
안정확산 3	2024년	링크	확산변압기 기반 안정확산
안정적인 비디오	2024년	링크	고품질 고해상도 이미지
DALL-E 3	2023년	링크	ChatGPT와 협업
표의 문자	2023년	링크	텍스트 이미지
운동장	2023년	링크	미적 이미지
HiDream.ai	2023년	링크	-
대시툰	2023년	링크	텍스트를 만화로 변환하는 생성
휘	2023년	링크	WHEE는 T2I 세대, I2I 세대, SR, 인페인팅, 아웃페인팅, 이미지 변형, 가상 체험 등에 적용할 수 있는 온라인 AI 생성 도구입니다.
베가 AI	2023년	링크	Vega AI는 온라인 AI 생성 도구로 T2I 세대, I2I 세대, SR, T2V 세대, I2V 세대 등에 적용할 수 있습니다.
우지에 AI	2022년	링크	중국어 이름은 "无界AI"이며 AIGC 리소스와 온라인 서비스를 제공합니다.
중간 여정	2022년	링크	강력한 클로즈 소스 생성 도구

<맨 위로>

서류

설문조사 서류

텍스트-이미지 생성
- 2024년
  - ACM 컴퓨팅 설문조사
    - 확산 모델: 방법 및 응용 분야에 대한 종합적인 조사 [논문]
- 2023년
  - 티파미
    - 비전의 확산 모델: 설문조사 [논문] [코드]
  - arXiv
    - 생성 AI의 텍스트-이미지 확산 모델: 설문조사 [논문]
    - 비주얼 컴퓨팅을 위한 확산 모델의 최신 기술 [논문]
- 2022년
  - arXiv
    - 시력을 위한 효율적인 확산 모델: 설문조사 [논문]
조건부 텍스트-이미지 생성
- 2024년
  - arXiv
    - 텍스트-이미지 확산 모델을 사용한 제어 가능한 생성: 설문조사 [논문]
텍스트 기반 이미지 편집
- 2024년
  - arXiv
    - 확산모델 기반 이미지 편집: 설문조사 [논문] [코드]

<맨 위로>

텍스트-이미지 생성

2024년
- CVPR
  - DistriFusion: 고분해능 확산 모델을 위한 분산 병렬 추론 [논문] [코드]
  - InstanceDiffusion: 이미지 생성을 위한 인스턴스 수준 제어 [문서] [코드] [프로젝트]
  - ECLIPSE: 이미지 생성을 위한 리소스 효율적인 텍스트-이미지 변환 [문서] [코드] [프로젝트] [데모]
  - Instruct-Imagen: 다중 모드 명령을 사용한 이미지 생성 [논문]
  - 텍스트-이미지 생성을 위한 연속 3D 단어 학습 [종이] [코드]
  - HanDiffuser: 사실적인 손 모양을 사용한 텍스트-이미지 생성 [종이]
  - 텍스트-이미지 생성을 위한 풍부한 인적 피드백 [논문]
  - MarkovGen: 효율적인 텍스트-이미지 생성을 위한 구조화된 예측 [논문]
  - 텍스트-이미지 생성을 위한 사용자 정의 지원[종이]
  - ADI: 작업 맞춤형 텍스트-이미지 생성을 위한 분리된 식별자 학습 [논문] [프로젝트]
  - UFOGen: 확산 GAN을 통해 대규모 텍스트-이미지 생성을 한 번 전달합니다. [논문]
  - 책임 있는 텍스트-이미지 생성을 위한 자체 발견 해석 가능한 확산 잠재 방향 [논문]
  - 맞춤형 비전: 개인화된 프롬프트 재작성을 통한 텍스트-이미지 생성 향상 [논문] [코드]
  - CoDi: 더 높은 충실도와 더 빠른 이미지 생성을 위한 조건부 확산 증류 [논문] [코드] [프로젝트] [데모]
  - 잠재 확산 모델과 암시적 신경 디코더를 사용한 임의 규모 이미지 생성 및 업샘플링 [논문]
  - 텍스트 기반 인간 이미지 생성을 위한 확산 모델에서 인간 중심 사전 변수의 효과적인 사용을 위해 [논문]
  - ElasticDiffusion: 훈련이 필요 없는 임의 크기 이미지 생성 [종이] [코드] [프로젝트] [데모]
  - CosmicMan: 인간을 위한 텍스트-이미지 기반 모델 [종이] [코드] [프로젝트]
  - PanFusion: 텍스트의 안정적인 확산을 360° 파노라마 이미지 생성으로 길들이기 [종이] [코드] [프로젝트]
  - 지능형 그림: 잠재 확산 모델을 통한 개방형 시각적 스토리텔링 [논문] [코드] [프로젝트]
  - 확산 기반 텍스트-이미지 생성의 확장성에 관하여 [논문]
  - MuLAn: 제어 가능한 텍스트-이미지 생성을 위한 다층 주석 데이터 세트 [종이] [프로젝트] [데이터 세트]
  - 텍스트-이미지 생성을 위한 다차원적 인간 선호도 학습 [논문]
  - 텍스트-이미지 생성을 위한 동적 프롬프트 최적화 [논문]
  - 강화 학습을 통한 다양한 이미지 생성을 위한 확산 모델 훈련 [논문]
  - 적대적 텍스트에서 지속적인 이미지 생성까지 [논문] [프로젝트] [동영상]
  - EmoGen: 텍스트-이미지 확산 모델을 이용한 감성 이미지 콘텐츠 생성 [논문] [코드]
- ECCV
  - 텍스트-이미지 생성을 위한 다양한 언어 모델과 생성적 비전 모델 연결 [논문] [코드] [프로젝트]
  - 텍스트-이미지 확산 모델을 사용한 구문 수준 접지 탐색 [논문] [코드]
  - 올바른 방법: 텍스트-이미지 모델의 공간 일관성 개선 [문서] [코드] [프로젝트]
  - 인도어 전반에 걸쳐 텍스트-이미지 생성 편향 탐색 [논문] [프로젝트]
  - 인간 피드백 반전으로 텍스트-이미지 확산 모델 보호 [논문]
  - 현실과 환상의 제작: LLM 지원 프롬프트 해석을 통한 장면 생성 [논문] [코드] [프로젝트] [데이터 세트]
  - 텍스트-이미지 확산 모델의 안정적이고 효율적인 개념 삭제 [논문] [코드]
  - 텍스트-이미지 확산 모델을 사용한 구문 수준 접지 탐색 [논문] [코드]
  - StyleTokenizer: 확산 모델 제어를 위한 단일 인스턴스로 이미지 스타일 정의 [문서] [코드]
  - PEA-확산: 비영어권 텍스트-이미지 생성에서 지식 증류를 사용한 매개변수 효율적인 어댑터 [논문] [코드]
  - 텍스트-이미지 생성의 일반화를 방해하는 현상 공간 왜곡 [논문] [코드]
  - 앵무새: 텍스트-이미지 생성을 위한 파레토 최적 다중 보상 강화 학습 프레임워크 [논문]
  - 텍스트-이미지 생성을 위한 다양한 언어 모델과 생성적 비전 모델 연결 [논문] [코드] [프로젝트]
  - MobileDiffusion: 모바일 장치에서 즉각적인 텍스트-이미지 생성 [논문]
  - PixArt-Σ: 4K 텍스트-이미지 생성을 위한 확산 변환기의 약-강 훈련 [논문] [코드] [프로젝트]
  - CogView3: 릴레이 확산을 통해 더 세밀하고 빠른 텍스트-이미지 생성 [문서] [코드]
- ICLR
  - 고해상도 이미지 합성을 위한 패치된 노이즈 제거 확산 모델 [논문] [코드]
  - Relay Diffusion: 이미지 합성을 위해 해상도 간 확산 과정을 통일 [논문] [코드]
  - SDXL: 고해상도 이미지 합성을 위한 잠재 확산 모델 개선 [논문] [코드]
  - 구성하고 정복하세요: 확산 기반 3D 깊이 인식 합성 이미지 합성 [논문] [코드]
  - PixArt-α: 사실적인 텍스트-이미지 합성을 위한 확산 변환기의 빠른 교육 [문서] [코드] [프로젝트] [데모]
- 시그라프
  - RGB←X: 재료 및 조명 인식 확산 모델을 사용한 이미지 분해 및 합성 [종이] [프로젝트]
- AAAI
  - 텍스트-이미지 합성을 위한 의미 인식 데이터 증강 [논문]
  - 추상적 개념을 위한 텍스트-이미지 생성 [논문]
- arXiv
  - 텍스트-이미지 생성을 위한 확산 모델의 자체 재생 미세 조정 [논문]
  - RPG: 텍스트-이미지 확산 마스터하기: 멀티모달 LLM을 사용한 요약, 계획 및 생성 [논문] [코드]
  - Playground v2.5: 텍스트-이미지 생성에서 미적 품질 향상을 위한 세 가지 통찰력 [논문] [코드]
  - ResAdapter: 확산 모델을 위한 도메인 일치 해상도 어댑터 [논문] [코드] [프로젝트]
  - InstantID: 몇 초 만에 제로샷 신원 보존 생성 [문서] [코드] [프로젝트] [데모]
  - PIXART-δ: 잠재 일관성 모델을 사용한 빠르고 제어 가능한 이미지 생성 [논문] [코드]
  - ELLA: 향상된 의미 정렬을 위해 LLM을 갖춘 확산 모델 장착 [논문] [코드] [프로젝트]
  - Text2Street: 스트리트 뷰를 위한 제어 가능한 텍스트-이미지 생성 [종이]
  - LayerDiffuse: 잠재 투명도를 이용한 투명 이미지 레이어 확산 [종이] [코드]
  - SD3-Turbo: 잠재 적대적 확산 증류를 이용한 고속 고해상도 이미지 합성 [논문]
  - StreamMultiDiffusion: 지역 기반 의미 제어를 통한 실시간 대화형 생성 [논문] [코드]
  - SVGDreamer: 확산 모델을 사용한 텍스트 기반 SVG 생성 [논문] [코드] [프로젝트]
  - PromptCharm: 다중 모드 프롬프트 및 개선을 통한 텍스트-이미지 생성 [논문]
  - YOSO: 한 번만 샘플링하면 됩니다: 자가 협력 확산 GAN을 통해 1단계 텍스트-이미지 합성 길들이기 [논문] [코드]
  - SingDiffusion: 확산 모델의 시간 간격 끝점에서 특이점 다루기 [논문] [코드]
  - CoMat: 이미지-텍스트 개념 매칭을 통한 텍스트-이미지 확산 모델 정렬 [종이] [코드] [프로젝트]
  - StoryDiffusion: 장거리 이미지 및 비디오 생성을 위한 일관된 Self-Attention [논문] [코드] [프로젝트] [데모]
  - 세분화된 ID 및 속성 제어를 갖춘 사전 훈련된 확산 모델을 위한 얼굴 어댑터 [논문] [프로젝트]
  - LinFusion: 1 GPU, 1분, 16K 이미지 [종이] [코드] [프로젝트] [데모]
  - OmniGen: 통합 이미지 생성 [논문] [코드]
  - CoMPaSS: 텍스트-이미지 확산 모델의 공간적 이해 강화 [논문] [코드]
- 기타
  - 안정적인 캐스케이드 [블로그] [코드]

<맨 위로>

2023년
- CVPR
  - GigaGAN: 텍스트-이미지 합성을 위한 GAN 확장 [논문] [복제된 코드] [프로젝트] [동영상]
  - ERNIE-ViLG 2.0: 지식 강화된 잡음 제거 전문가 혼합을 통해 텍스트-이미지 확산 모델 개선 [논문]
  - 텍스트-이미지 생성을 위한 이동 확산 [종이] [코드]
  - GALIP: 텍스트-이미지 합성을 위한 생성적 적대 클립 [논문] [코드]
  - 전문가 확산: 보이지 않는 스타일을 학습하기 위한 플러그 앤 플레이 샘플 효율적인 텍스트-이미지 확산 모델 미세 조정 [논문] [코드]
  - 텍스트-이미지 생성을 위한 검증 가능하고 재현 가능한 인간 평가를 향하여 [논문]
  - RIATIG: 자연스러운 프롬프트를 통한 신뢰할 수 있고 눈에 띄지 않는 적대적 텍스트-이미지 생성 [논문] [코드]
- ICCV
  - DiffFit: 간단한 매개변수 효율적인 미세 조정을 통해 대규모 확산 모델의 이전 가능성 잠금 해제 [논문] [코드] [데모]
- NeurIPS
  - ImageReward: 텍스트-이미지 생성을 위한 인간 선호도 학습 및 평가 [논문] [코드]
  - RAPHAEL : 확산 경로의 대규모 혼합을 통한 텍스트-이미지 생성 [논문] [프로젝트]
  - 확산 모델의 언어 바인딩: Attention Map 정렬을 통한 속성 대응 향상 [논문] [코드]
  - DenseDiffusion: 주의 변조를 통한 조밀한 텍스트-이미지 생성 [논문] [코드]
- ICLR
  - 구성적 텍스트-이미지 합성을 위한 훈련이 필요 없는 구조적 확산 지침 [논문] [코드]
- ICML
  - StyleGAN-T: 빠른 대규모 텍스트-이미지 합성을 위한 GAN의 힘 잠금 해제 [논문] [코드] [프로젝트] [동영상]
  - Muse: Masked Generative Transformers를 통한 텍스트-이미지 생성 [논문] [복제 코드] [프로젝트]
  - UniDiffusers: 하나의 변압기가 규모에 따른 다중 모드 확산의 모든 분포에 적합합니다. [논문] [코드]
- ACMMM
  - SUR-어댑터: 대규모 언어 모델을 사용하여 텍스트-이미지 사전 훈련된 확산 모델 강화 [논문] [코드]
  - ControlStyle: 확산 우선순위를 사용한 텍스트 기반 스타일화된 이미지 생성 [논문]
- 시그라프
  - 참석 및 흥분: 텍스트-이미지 확산 모델을 위한 주의 기반 의미론적 안내 [논문] [코드] [프로젝트] [데모]
- arXiv
  - P+: 텍스트-이미지 생성의 확장된 텍스트 조건화 [종이]
  - SDXL-Turbo: 적대적 확산 증류 [종이] [코드]
  - Wuerstchen: 대규모 텍스트-이미지 확산 모델을 위한 효율적인 아키텍처 [논문] [코드]
  - StreamDiffusion: 실시간 대화형 생성을 위한 파이프라인 수준 솔루션 [논문] [프로젝트]
  - ParaDiffusion: 정보 강화 확산 모델을 사용한 단락-이미지 생성 [논문] [코드]
- 기타
  - DALL-E 3: 더 나은 캡션으로 이미지 생성 개선 [문서]

<맨 위로>

2022년
- CVPR
  - 안정 확산: 잠재 확산 모델을 사용한 고해상도 이미지 합성 [논문] [코드] [프로젝트]
  - 텍스트-이미지 합성을 위한 벡터 양자화 확산 모델 [논문] [코드]
  - DF-GAN: 텍스트-이미지 합성을 위한 간단하고 효과적인 기준선 [논문] [코드]
  - LAFITE: 텍스트-이미지 생성을 위한 언어 없는 교육을 향하여 [논문] [코드]
  - 객체 유도 조인트 디코딩 변환기를 기반으로 한 텍스트-이미지 합성 [논문]
  - StyleT2I: 구성 및 충실도가 높은 텍스트-이미지 합성을 향하여 [논문] [코드]
- ECCV
  - Make-A-Scene: 인간 우선순위를 사용한 장면 기반 텍스트-이미지 생성 [문서] [코드] [데모]
  - 제어된 텍스트를 이미지 생성으로 추적[종이]
  - Token-Critic [Paper]를 통해 향상된 마스크 이미지 생성
  - VQGAN-CLIP: 자연어를 사용한 오픈 도메인 이미지 생성 및 조작 [논문] [코드]
  - TISE: 텍스트-이미지 합성 평가를 위한 측정항목 가방 [논문] [코드]
  - StoryDALL-E: 스토리 지속을 위해 사전 훈련된 텍스트-이미지 변환기 적용 [논문] [코드] [데모]
- NeurIPS
  - CogView2: 계층적 변환기를 통해 더 빠르고 더 나은 텍스트-이미지 생성 [문서] [코드]
  - Imagen: 깊은 언어 이해를 갖춘 사실적인 텍스트-이미지 확산 모델 [논문] [복제된 코드] [프로젝트] [ Imagen 2 ]
- ACMMM
  - Adma-GAN: 텍스트-이미지 생성을 위한 속성 기반 메모리 증강 GAN [논문] [코드]
  - 텍스트-이미지 생성을 위한 배경 레이아웃 생성 및 객체 지식 전달 [논문]
  - DSE-GAN: 텍스트-이미지 생성을 위한 동적 의미 진화 생성적 적대 네트워크 [논문]
  - AtHom: 텍스트-이미지 합성에서 동형 훈련으로 자극된 두 가지 발산 주의 [논문]
- arXiv
  - DALLE-2: CLIP 잠재성을 사용한 계층적 텍스트 조건부 이미지 생성 [논문]
  - PITI: 사전 훈련은 이미지-이미지 변환에 필요한 전부입니다. [논문] [코드]

<맨 위로>

2021년
- ICCV
  - DAE-GAN: 텍스트-이미지 합성을 위한 동적 측면 인식 GAN [논문] [코드]
- NeurIPS
  - CogView: Transformers를 통한 텍스트-이미지 생성 마스터링 [문서] [코드] [데모]
  - UFC-BERT: 조건부 이미지 합성을 위한 다중 모드 제어 통합 [논문]
- ICML
  - DALLE-1: 제로샷 텍스트-이미지 생성 [문서] [복제 코드]
- ACMMM
  - 텍스트-이미지 합성을 위한 주기 일관성 있는 역 GAN [논문]
  - R-GAN: 생성적 적대 신경망을 통해 합리적인 텍스트-이미지 합성을 위한 인간과 유사한 방식 탐색 [논문]

<맨 위로>

2020년
- ACMMM
  - 미적 레이아웃을 통한 텍스트-이미지 합성 [종이]

<맨 위로>

조건부 텍스트-이미지 생성

2024년
- CVPR
  - 장소: 의미론적 이미지 합성을 위한 적응형 레이아웃-의미론적 융합 [논문]
  - 원샷 구조 인식 양식화된 이미지 합성 [논문]
  - 주의 재초점을 통한 기반 텍스트-이미지 합성 [논문] [코드] [프로젝트] [데모]
  - 자세 유도 인물 이미지 합성을 위한 대략적에서 미세한 잠재 확산 [논문] [코드]
  - DetDiffusion: 향상된 데이터 생성 및 인식을 위한 생성 및 인식 모델의 시너지 효과 [논문]
  - CAN: 제어된 이미지 생성을 위한 상태 인식 신경망 [논문]
  - SceneDiffusion: 레이어드 Scene Diffusion을 사용하여 무엇이든 이동합니다. [종이]
  - Zero-Painter: 텍스트-이미지 합성을 위한 교육이 필요 없는 레이아웃 제어 [문서] [코드]
  - MIGC: 텍스트-이미지 합성을 위한 다중 인스턴스 생성 컨트롤러 [논문] [코드] [프로젝트]
  - FreeControl: 모든 조건의 텍스트-이미지 확산 모델에 대한 학습이 필요 없는 공간 제어 [문서] [코드] [프로젝트]
- ECCV
  - PreciseControl: 세분화된 속성 제어를 통해 텍스트-이미지 확산 모델 강화 [문서] [코드] [프로젝트]
  - AnyControl: 텍스트-이미지 생성에 대한 다양한 제어 기능을 사용하여 아트워크 만들기 [종이] [코드]
- ICLR
  - 점진적 조건부 확산 모델을 사용한 자세 기반 이미지 합성 발전 [논문] [코드]
- WACV
  - 교차 주의 안내를 통한 훈련 없는 레이아웃 제어 [논문] [코드] [프로젝트] [데모]
- AAAI
  - SSMG: 자유 형식 레이아웃-이미지 생성을 위한 공간 의미 지도 기반 확산 모델 [논문]
  - 확산 모델의 주의 지도 제어를 사용한 구성적 텍스트-이미지 합성 [논문] [코드]
- arXiv
  - DEADiff: 얽힌 표현을 사용한 효율적인 양식화 확산 모델 [논문]
  - InstantStyle: 텍스트-이미지 생성에서 스타일 보존을 위한 무료 점심 [문서] [코드] [프로젝트]
  - ControlNet++: 효율적인 일관성 피드백으로 조건부 제어 개선 [논문] [프로젝트]
  - Hunyuan-DiT: 세밀한 중국어 이해를 갖춘 강력한 다중 해상도 확산 변환기 [논문] [코드] [프로젝트]
  - DialogGen: 다중 회전 텍스트-이미지 생성을 위한 다중 모드 대화형 대화 시스템 [논문] [코드] [프로젝트]
  - ControlNeXt: 이미지 및 비디오 생성을 위한 강력하고 효율적인 제어 [문서] [코드] [프로젝트]
  - UniPortrait: 신원 보존 단일 및 다중 인간 이미지 개인화를 위한 통합 프레임워크 [문서] [코드] [프로젝트] [데모]
  - OmniControl: 확산 변압기를 위한 최소 및 범용 제어 [종이] [코드] [데모]
  - UnZipLoRA: 단일 이미지에서 콘텐츠와 스타일 분리하기 [페이퍼] [프로젝트]
  - CtrLoRA: 제어 가능한 이미지 생성을 위한 확장 가능하고 효율적인 프레임워크 [논문] [코드]
  - 하드 바인딩 및 소프트 개선을 통한 지역 인식 텍스트-이미지 생성 [용지] [코드]

<맨 위로>

2023년
- CVPR
  - GLIGEN: 개방형 접지 텍스트-이미지 생성 [문서] [코드] [프로젝트] [데모] [비디오]
  - 잔여 양자화를 이용한 자기회귀 영상 생성 [종이] [코드]
  - SpaText: 제어 가능한 이미지 생성을 위한 공간 텍스트 표현 [논문] [프로젝트] [동영상]
  - 의미 공간 인식 GAN을 사용한 텍스트-이미지 생성 [논문]
  - ReCo: 지역 제어 텍스트-이미지 생성 [문서] [코드]
  - LayoutDiffusion: 레이아웃-이미지 생성을 위한 제어 가능한 확산 모델 [논문] [코드]
- ICCV
  - ControlNet: 텍스트-이미지 확산 모델에 조건부 제어 추가 [논문] [코드]
  - SceneGenie: 이미지 합성을 위한 장면 그래프 유도 확산 모델 [논문] [코드]
  - ZestGuide: 텍스트-이미지 확산 모델을 위한 제로샷 공간 레이아웃 조절 [논문]
- ICML
  - 작곡가: 구성 가능한 조건을 갖춘 창의적이고 제어 가능한 이미지 합성 [종이] [코드] [프로젝트]
  - MultiDiffusion: 제어된 이미지 생성을 위한 융합 확산 경로 [문서] [코드] [비디오] [프로젝트] [데모]
- 시그라프
  - 스케치 기반 텍스트-이미지 확산 모델 [종이] [재현 코드] [프로젝트]
- NeurIPS
  - Uni-ControlNet: 텍스트-이미지 확산 모델에 대한 올인원 제어 [논문] [코드] [프로젝트]
  - 프롬프트 확산: 확산 모델을 위한 맥락 내 학습 잠금 해제 [논문] [코드] [프로젝트]
- WACV
  - 무료로 더 많은 제어 기능을 제공합니다! 의미 확산 안내를 이용한 이미지 합성 [논문]
- ACMMM
  - LayoutLLM-T2I: 텍스트-이미지 생성을 위해 LLM에서 레이아웃 지침 도출 [논문]
- arXiv
  - T2I-어댑터: 텍스트-이미지 확산 모델에 대해 보다 제어 가능한 기능을 발굴하기 위한 학습 어댑터 [논문] [코드] [데모]
  - BLIP-확산: 제어 가능한 텍스트-이미지 생성 및 편집을 위한 사전 훈련된 주제 표현 [종이] [코드]
  - 제어 가능한 이미지 합성을 위한 후기 제약 확산 지침 [논문] [코드]
2022년
- ICLR
  - SDEdit: 확률적 미분 방정식을 사용한 유도 이미지 합성 및 편집 [논문] [코드] [프로젝트]

<맨 위로>

개인화된 텍스트-이미지 생성

2024년
- CVPR
  - 개인화된 텍스트-이미지 생성을 위한 교차 초기화 [논문]
  - StyleGAN이 안정적인 확산을 만났을 때: 개인화된 이미지 생성을 위한 W+ 어댑터 [논문] [코드] [프로젝트]
  - Shared Attention을 통한 스타일 정렬 이미지 생성 [논문] [코드] [프로젝트]
  - InstantBooth: 테스트 시간 미세 조정 없이 개인화된 텍스트-이미지 생성 [문서] [프로젝트]
  - 충실도가 높은 사람 중심의 피사체-이미지 합성 [논문]
  - RealCustom: 실시간 오픈 도메인 텍스트-이미지 사용자 정의를 위한 실제 텍스트 단어 범위 좁히기 [논문] [프로젝트]
  - DisenDiff: 풀린 텍스트-이미지 개인화를 위한 주의 보정 [논문] [코드]
  - FreeCustom: 멀티 컨셉 구성을 위한 튜닝 없는 맞춤형 이미지 생성 [논문] [코드] [프로젝트]
  - 개념 기반 텍스트-이미지 생성을 위한 개인화된 잔차 [논문]
  - 주제에 구애받지 않는 지침을 통해 주제 중심 이미지 합성 개선 [논문]
  - JeDi: 미세 조정이 필요 없는 개인화된 텍스트-이미지 생성을 위한 공동 이미지 확산 모델 [논문]
  - 영향력 워터마크를 통한 개인화된 텍스트-이미지 생성 대응 [논문]
- ECCV
  - Be Yourself: 다중 주제 텍스트-이미지 생성을 위한 제한된 주의 [논문] [프로젝트]
  - 강력하고 유연함: 강화 학습을 통한 개인화된 텍스트-이미지 생성 [논문] [코드]
  - TIGC: 이미지 및 텍스트 안내를 통한 조정 없는 이미지 사용자 정의 [논문] [코드] [프로젝트]
  - MasterWeaver: 개인화된 텍스트-이미지 생성을 위한 편집 가능성 및 얼굴 신원 길들이기 [문서] [코드] [프로젝트]
- AAAI
  - 맞춤형 이미지 생성을 위한 분리된 텍스트 임베딩 [논문]
- arXiv
  - FlashFace: 충실도 높은 신원 보존을 통한 인간 이미지 개인화 [논문] [코드] [프로젝트]
  - MoMA: 빠른 개인화 이미지 생성을 위한 다중 모드 LLM 어댑터 [논문]
  - IDAdapter: 텍스트-이미지 모델의 조정 없는 개인화를 위한 혼합 기능 학습 [논문]
  - CoRe: 텍스트-이미지 개인화를 위한 컨텍스트 정규화된 텍스트 임베딩 학습 [논문]
  - 자신을 상상해 보세요: 튜닝이 필요 없는 개인화 이미지 생성 [논문] [프로젝트]
2023년
- CVPR
  - Custom Diffusion: 텍스트-이미지 확산의 다개념 커스터마이징 [종이] [코드] [프로젝트]
  - DreamBooth: 주제 중심 생성을 위한 텍스트-이미지 확산 모델 미세 조정 [논문] [코드] [프로젝트]
- ICCV
  - ELITE: 맞춤형 텍스트-이미지 생성을 위해 시각적 개념을 텍스트 임베딩으로 인코딩 [논문] [코드]
- ICLR
  - 텍스트 반전: 이미지는 한 단어의 가치가 있습니다: 텍스트 반전을 사용하여 텍스트-이미지 생성 개인화 [종이] [코드] [프로젝트]
- 시그라프
  - Break-A-Scene: 단일 이미지에서 여러 개념 추출 [논문] [코드]
  - 텍스트-이미지 모델의 빠른 개인화를 위한 인코더 기반 도메인 튜닝 [논문] [프로젝트]
  - LayerDiffusion: 확산 모델을 사용한 계층화 제어 이미지 편집 [종이]
- arXiv
  - DreamTuner: 주제 중심의 생성에는 단일 이미지로 충분합니다. [논문] [프로젝트]
  - PhotoMaker: 누적 ID 삽입을 통해 사실적인 인물 사진 사용자 정의 [종이] [코드]
  - IP 어댑터: 텍스트-이미지 확산 모델을 위한 텍스트 호환 이미지 프롬프트 어댑터 [논문] [코드] [프로젝트]
  - FastComposer: 국부적인 주의를 기울여 조정이 필요 없는 다중 피사체 이미지 생성 [논문] [코드]

<맨 위로>

텍스트 기반 이미지 편집

2024년
- CVPR
  - InfEdit: 자연어를 사용한 반전 없는 이미지 편집 [논문] [코드] [프로젝트]
  - 텍스트 기반 이미지 편집을 위한 안정적인 확산의 교차 및 셀프 어텐션 이해를 향하여 [논문]
  - 텍스트 기반 이미지 편집을 위한 이중 귀추적 반사실 추론 [논문] [코드]
  - 지시사항에 집중하세요: 주의 변조를 통한 세밀하고 다중 지시사항 이미지 편집 [논문] [코드]
  - 텍스트 기반 잠재 확산 이미지 편집을 위한 대비 노이즈 제거 점수 [논문]
  - DragDiffusion: 대화형 점 기반 이미지 편집을 위한 확산 모델 활용 [논문] [코드]
  - DiffEditor: 확산 기반 이미지 편집의 정확성과 유연성 향상 [논문]
  - FreeDrag: 안정적인 점 기반 이미지 편집을 위한 기능 끌기 [용지] [코드]
  - 학습 가능 영역을 통한 텍스트 기반 이미지 편집 [논문] [코드] [프로젝트] [동영상]
  - LEDITS++: 텍스트-이미지 모델을 사용한 무제한 이미지 편집 [문서] [코드] [프로젝트] [데모]
  - SmartEdit: 대규모 언어 모델을 사용한 복잡한 명령 기반 이미지 편집 탐색 [논문] [코드] [프로젝트]
  - 모두를 위한 하나 편집: 대화형 일괄 이미지 편집 [문서] [코드] [프로젝트]
  - DiffMorpher: 이미지 모핑을 위한 확산 모델의 기능 활용 [문서] [코드] [프로젝트] [데모]
  - TiNO-Edit: 강력한 확산 기반 이미지 편집을 위한 시간 단계 및 노이즈 최적화 [문서] [코드]
  - 현장 사람: 인간-물체 상호 작용 이미지 편집을 위한 연관 골격-유도 맵 생성 [논문] [프로젝트] [코드]
  - 참조 이미지 편집: 참조 표현식을 통한 개체 수준 이미지 편집 [논문]
  - 자기 감독 텍스트 안내 이미지 조작을 위한 신속한 증강 [논문]
  - 악마는 디테일에 있다: 풍부한 디테일의 StyleGAN 반전 및 고품질 이미지 편집을 위한 StyleFeatureEditor [문서] [코드]
- ECCV
  - RegionDrag: 확산 모델을 사용한 빠른 영역 기반 이미지 편집 [문서] [코드] [프로젝트] [데모]
  - TurboEdit: 즉각적인 텍스트 기반 이미지 편집 [종이] [프로젝트]
  - InstructGIE: 일반화 가능한 이미지 편집을 향하여 [논문]
  - StableDrag: 포인트 기반 이미지 편집을 위한 안정적인 드래그 [Paper]
  - 에타 반전: 확산 기반 실제 이미지 편집을 위한 최적의 에타 함수 설계 [논문] [코드] [프로젝트]
  - SwapAnything: 개인화된 이미지 편집에서 임의의 개체 교환 활성화 [종이] [코드] [프로젝트]
  - Guide-and-Rescale: 효과적인 조정 없는 실제 이미지 편집을 위한 자체 안내 메커니즘 [논문]
  - FreeDiff: 확산 모델을 사용한 이미지 편집을 위한 점진적 주파수 절단 [논문] [코드]
  - 대화형 이미지 편집을 위한 게으른 확산 변환기 [논문] [프로젝트]
  - ByteEdit: 생성 이미지 편집 강화, 규정 준수 및 가속화 [논문] [프로젝트]
- ICLR
  - 멀티모달 대형 언어 모델을 통한 명령어 기반 이미지 편집 안내 [논문] [코드] [프로젝트]
  - 무작위성의 축복: 일반 확산 기반 이미지 편집에서 SDE가 ODE를 능가함 [논문] [코드] [프로젝트]
  - 모션 가이던스: 미분 가능한 모션 추정기를 사용한 확산 기반 이미지 편집 [논문] [코드] [프로젝트]
  - 이미지 편집을 위한 객체 인식 반전 및 재조립 [종이] [코드] [프로젝트]
  - 노이즈 맵 지침: 실제 이미지 편집을 위한 공간 컨텍스트를 사용한 반전 [논문]
- AAAI
  - 일관된 이미지 편집을 위한 튜닝 없는 반전 강화 제어 [종이]
  - BARET: 대상 텍스트 반전을 통한 균형 잡힌 주의 기반 실제 이미지 편집 [논문]
  - 캐시 지원 희소 확산 추론을 통해 텍스트-이미지 편집 가속화 [논문]
  - 고충실도 확산 기반 이미지 편집 [종이]
  - AdapEdit: 텍스트 기반 연속성에 민감한 이미지 편집을 위한 시공간 안내 적응 편집 알고리즘 [논문]
  - TexFit: 확산 모델을 사용한 텍스트 기반 패션 이미지 편집 [논문]
- arXiv
  - 프롬프트를 표시할 가치가 있는 항목: 얽힘 제어를 통한 다양한 이미지 편집 [종이] [코드]
  - 모든 것을 지배하는 1차원 어댑터: 개념, 확산 모델 및 삭제 응용 프로그램 [종이] [코드] [프로젝트]
  - EditWorld: 지시에 따른 이미지 편집을 위한 세계 역학 시뮬레이션 [논문] [코드] [프로젝트]
  - ReasonPix2Pix: 고급 이미지 편집을 위한 명령 추론 데이터 세트 [논문]
  - FlowEdit: 사전 학습된 흐름 모델을 사용한 반전 없는 텍스트 기반 편집 [논문] [코드] [프로젝트] [데모]
2023년
- CVPR
  - 텍스트-이미지 확산 모델에서 분리 기능 발견 [논문] [코드]
  - SINE: 텍스트-이미지 확산 모델을 사용한 단일 이미지 편집 [논문] [코드]
  - Imagic: 확산 모델을 사용한 텍스트 기반 실제 이미지 편집 [논문]
  - InstructPix2Pix: 이미지 편집 지침을 따르는 방법 학습 [문서] [코드] [데이터 세트] [프로젝트] [데모]
  - 유도 확산 모델을 사용하여 실제 이미지를 편집하기 위한 널 텍스트 반전 [논문] [코드]
- ICCV
  - MasaCtrl: 일관된 이미지 합성 및 편집을 위한 튜닝 없는 상호 Self-Attention 제어 [문서] [코드] [프로젝트] [데모]
  - 텍스트-이미지 확산 모델을 사용하여 객체 수준 모양 변형 지역화 [문서] [코드] [프로젝트] [데모]
- ICLR
  - SDEdit: 확률적 미분 방정식을 사용한 유도 이미지 합성 및 편집 [논문] [코드] [프로젝트]
2022년
- CVPR
  - DiffusionCLIP: 강력한 이미지 조작을 위한 텍스트 기반 확산 모델 [논문] [코드]

<맨 위로>

텍스트 이미지 생성

2024년
- arXiv
  - AnyText: 다국어 시각적 텍스트 생성 및 편집 [논문] [코드] [프로젝트]
- CVPR
  - SceneTextGen: 문자 수준 확산 및 문맥 일관성이 통합된 레이아웃에 구애받지 않는 장면 텍스트 이미지 합성 [논문]

<맨 위로>

데이터 세트

Microsoft COCO: 컨텍스트의 공통 개체 [문서] [데이터 세트]
개념적 캡션: 자동 이미지 캡션을 위한 정리된 하이퍼니드 이미지 대체 텍스트 데이터 세트 [논문] [데이터 세트]
LAION-5B: 차세대 이미지-텍스트 모델 훈련을 위한 개방형 대규모 데이터 세트 [논문] [데이터 세트]
PartiPrompts: 콘텐츠가 풍부한 텍스트-이미지 생성을 위한 자동 회귀 모델 확장 [논문] [데이터 세트] [프로젝트]

<맨 위로>

툴킷

이름	웹사이트	설명
안정적인 확산 WebUI	링크	Gradio를 기반으로 구축되었으며 Stable Diffusion 체크포인트, LoRA 가중치, ControlNet 가중치 등을 실행하기 위해 로컬로 배포되었습니다.
안정적인 확산 WebUI-forge	링크	Gradio를 기반으로 구축되었으며 Stable Diffusion 체크포인트, LoRA 가중치, ControlNet 가중치 등을 실행하기 위해 로컬로 배포되었습니다.
푸커스	링크	Gradio, 오프라인, 오픈 소스 및 무료를 기반으로 구축되었습니다. 수동으로 조정할 필요가 없으며 사용자는 프롬프트와 이미지에만 집중하면 됩니다.
ComfyUI	링크	Stable Diffusion을 통해 맞춤형 워크플로우를 활성화하기 위해 로컬로 배포
치비타이	링크	커뮤니티 Stable Diffusion 및 LoRA 체크포인트를 위한 웹사이트

<맨 위로>

Q&A

Q: 이 논문 목록의 컨퍼런스 순서는 무엇입니까?
- 이 논문 목록은 다음 순서에 따라 구성됩니다.
  - CVPR
  - ICCV
  - ECCV
  - WACV
  - NeurIPS
  - ICLR
  - ICML
  - ACMMM
  - 시그라프
  - AAAI
  - arXiv
  - 기타
Q: Others 무엇을 의미하나요?
- 다음 연구 중 일부(예: Stable Casacade )는 arXiv에 기술 보고서를 게시하지 않습니다. 대신 그들은 공식 웹사이트에 블로그를 쓰는 경향이 있습니다. Others 카테고리는 이러한 종류의 연구를 의미합니다.

<맨 위로>

참고자료

reference.bib 파일에는 최신 이미지 인페인팅 논문, 널리 사용되는 데이터 세트 및 툴킷의 bibtex 참조가 요약되어 있습니다. 원본 참조를 기반으로 LaTeX 원고에서 결과가 보기 좋게 보이도록 다음과 같이 수정했습니다.

참조는 일반적으로 author-etal-year-nickname 형식으로 구성됩니다. 특히, 데이터 세트 및 툴킷의 참조는 imagenet 과 같은 nickname 으로 직접 구성됩니다.
각 참고문헌에서 모든 학회/저널 이름은 Computer Vision and Pattern Recognition -> CVPR 과 같이 약어로 변환됩니다.
모든 참조의 url , doi , publisher , organization , editor , series 가 제거됩니다.
모든 참고문헌의 pages 누락된 경우 추가됩니다.
모든 논문 이름은 제목 케이스에 있습니다. 게다가, 제목 케이스가 일부 특정 템플릿에서도 잘 작동하는지 확인하기 위해 추가적인 {} 추가했습니다.