최근 몇 년 동안 AI 이미지 생성 기술은 급속도로 발전했지만, 높은 컴퓨팅 비용으로 인해 그 인기가 제한되었습니다. 이 기사에서는 효율적인 이미지 생성 기능과 낮은 운영 비용이 돋보이는 Sana라는 새로운 텍스트-이미지 변환 프레임워크를 소개합니다. Sana는 기존 기술보다 훨씬 빠르게 일반 노트북 GPU에서 최대 4096×4096 해상도의 초고화질 이미지를 생성할 수 있습니다. 이 프레임워크의 핵심 혁신은 심층 압축 자동 인코더, 선형 DiT, 디코더 스타일 텍스트 인코더, 효율적인 교육 및 샘플링 전략의 조합에 있습니다.
AI 이미지 생성 기술은 빠르게 발전하고 있지만, 모델 크기가 점점 커지고 일반 사용자에게는 훈련 및 사용 비용이 매우 높습니다. 이제 "Sana"라는 새로운 텍스트-이미지 프레임워크가 등장했습니다. 이는 최대 4096×4096 해상도의 초고화질 이미지를 효율적으로 생성할 수 있으며, GPU에서도 실행될 수 있을 정도로 빠릅니다. 랩탑.
Sana의 핵심 디자인은 다음과 같습니다.
심층 압축 자동 인코더: 이미지를 8번만 압축하는 기존 자동 인코더와 달리 Sana에서 사용하는 자동 인코더는 이미지를 32번 압축하여 잠재적인 토큰 수를 효과적으로 줄일 수 있습니다. 이는 효율적인 훈련과 초고해상도 이미지 생성에 매우 중요합니다.
선형 DiT:Sana는 DiT의 모든 기존 주의 메커니즘을 선형 주의로 대체하여 품질 저하 없이 고해상도 이미지의 처리 효율성을 향상시킵니다. 선형 주의는 계산 복잡성을 O(N²)에서 O(N)으로 줄입니다. 또한 Sana는 Mix-FFN을 사용하여 3x3 깊이 컨볼루션을 MLP에 통합하여 토큰의 로컬 정보를 집계하므로 더 이상 위치 인코딩이 필요하지 않습니다.
디코더 스타일 텍스트 인코더: Sana는 최신 디코더 스타일의 소형 LLM(예: Gemma)을 텍스트 인코더로 사용하여 일반적으로 사용되는 CLIP 또는 T5를 대체합니다. 이 접근 방식은 사용자 단서를 이해하고 추론하는 모델의 능력을 향상시키고 복잡한 인간 지침과 상황별 학습을 통해 이미지-텍스트 정렬을 향상시킵니다.
효율적인 훈련 및 샘플링 전략: Sana는 Flow-DPM-Solver를 채택하여 샘플링 단계를 줄이고 효율적인 제목 주석 및 선택 방법을 사용하여 모델 수렴을 가속화합니다. Sana-0.6B 모델은 Flux-12B와 같은 대형 확산 모델보다 20배 더 작고 100배 이상 빠릅니다.
Sana는 다음을 통해 추론 지연 시간을 크게 줄이는 점에서 혁신적입니다.
알고리즘 및 시스템의 협업 최적화: Sana는 다양한 최적화 방법을 통해 4096x4096 이미지 생성 시간을 469초에서 9.6초로 줄입니다. 이는 현재 가장 진보된 모델인 Flux보다 106배 빠릅니다.
심층 압축 자동 인코더: Sana는 AE-F32C32P1 구조를 사용하여 이미지를 32번 압축하여 토큰 수를 크게 줄이고 훈련 및 추론 속도를 높입니다.
선형 주의: 선형 주의를 사용하여 기존 self-attention 메커니즘을 대체하면 고해상도 이미지의 처리 효율성이 향상됩니다.
Triton 가속: Triton을 사용하여 선형 주의 모듈의 순방향 및 역방향 프로세스 커널을 융합하여 훈련 및 추론을 더욱 가속화합니다.
Flow-DPM-Solver: 더 나은 생성 결과를 얻으면서 추론 샘플링 단계를 28~50단계에서 14~20단계로 줄입니다.
사나의 활약이 돋보인다. 1024x1024 해상도에서 Sana-0.6B 모델의 매개변수는 5억 9천만 개에 불과하지만 전체 성능은 0.64GenEval에 도달하여 많은 대형 모델과 비슷합니다. 또한 Sana-0.6B는 16GB 노트북 GPU에 배포할 수 있으며 1초 이내에 1024×1024 해상도 이미지를 생성합니다. 4K 이미지 생성의 경우 Sana-0.6B는 최첨단 방법(FLUX)보다 100배 이상 빠른 처리량을 달성합니다. 사나는 속도 면에서 획기적인 발전을 이뤘을 뿐만 아니라, 텍스트 렌더링, 객체 디테일 등 복잡한 장면에서도 만족스러운 성능을 발휘했다.
또한 Sana는 강력한 제로 샘플 언어 마이그레이션 기능도 갖추고 있습니다. 영어 데이터로만 교육을 받은 경우에도 Sana는 중국어와 이모티콘 단서를 이해하고 해당 이미지를 생성할 수 있습니다.
Sana의 등장은 고품질 이미지 생성의 문턱을 낮추고 전문가와 일반 사용자를 위한 강력한 콘텐츠 제작 도구를 제공합니다. Sana의 코드와 모델은 공개적으로 공개될 예정입니다.
체험주소 : https://nv-sana.mit.edu/
논문 주소: https://arxiv.org/pdf/2410.10629
Github: https://github.com/NVlabs/Sana
전체적으로 Sana는 효율적인 알고리즘과 최적화된 시스템 설계를 통해 이미지 생성 분야에서 획기적인 발전을 이루어 사용자에게 전례 없는 편의성과 고품질 이미지 생성 경험을 제공했습니다. 오픈소스 기능도 AI 이미지 생성 기술 발전에 크게 기여했다.