NVIDIA의 최신 오픈소스 이미지 생성 모델인 Sana는 컴팩트한 크기와 강력한 성능으로 AI 이미지 생성 분야에 새로운 바람을 일으켰습니다. Sana의 매개변수는 6천만 개에 불과하지만 최대 4096×4096픽셀의 고화질 이미지를 생성하고 16GB 그래픽 카드에서 1초 미만의 속도를 달성할 수 있습니다. 이는 혁신적인 심층 압축 자동 인코더와 선형 확산 변환기, 텍스트 인코딩 및 추론 전략 최적화 덕분입니다. 매개변수가 더 큰 모델과 비교해도 유사한 모델 중에서 성능이 뛰어납니다.
최근 NVIDIA는 Sana라는 이미지 생성 모델을 오픈 소스로 공개했습니다. 이 모델은 매개변수가 6천만 개에 불과해 작동 임계값을 크게 줄였습니다.
Sana는 4096×4096 해상도의 이미지를 생성할 수 있으며 16GB 그래픽 카드에서 1초 이내에 1024×1024 해상도의 고품질 이미지를 생성할 수 있는 것으로 알려져 있습니다.
연구팀은 기존 오토인코더에 비해 최대 32배의 압축률을 제공하는 DC-AE(Deep Compression AutoEncoder)를 도입해 잠재적인 라벨 수를 크게 줄여 초고해상도 이미지 생성에 유용하다. 중대한. 둘째, Sana는 선형 확산 변환기(DiT)를 사용하여 기존의 2차 주의를 선형 주의로 대체함으로써 복잡성을 O(N)으로 줄이고 3×3 깊이 컨볼루션을 통해 로컬 정보를 향상시킵니다. 이 디자인은 4K 이미지를 생성할 때 Sana의 대기 시간을 1.7배 증가시킵니다.
텍스트 인코딩 측면에서 Sana는 기존 T5 모델 대신 소형 디코더 전용 대형 언어 모델인 Gemma를 선택했습니다. Gemma는 복잡한 지침을 더 잘 이해하고 실행하여 이미지와 텍스트를 정렬하는 능력을 향상시킵니다. 또한 Sana는 훈련 및 추론 전략을 최적화하여 높은 CLIP 점수로 설명에 자동으로 레이블을 지정하고 선택함으로써 텍스트-이미지 일관성을 향상시킵니다. 새로 제안된 Flow-DPM-Solver 알고리즘은 추론 단계를 14~20단계로 줄여 성능을 크게 향상시킵니다.
전반적인 성능 측면에서 Sana는 여러 고급 텍스트-이미지 확산 모델에서 우수한 성능을 발휘합니다. 512×512 해상도에서 Sana-0.6은 PixArt-Σ의 5배 처리량을 가지며 이미지 생성 품질 측면에서 우수한 성능을 발휘합니다. 1024×1024 해상도에서 Sana-0.6B는 매개변수가 3억 개 미만인 모델에서도 상당한 이점을 갖습니다.
Sana-0.6B는 강력한 성능을 제공할 뿐만 아니라 16GB 노트북 GPU에서 이미지를 빠르게 생성할 수 있어 콘텐츠 제작자가 창의적인 목표를 효율적으로 달성할 수 있도록 도와줍니다. Sana0.6B는 성능 면에서도 Flux-12B와 경쟁할 수 있는데, 매개변수 개수는 1/20에 불과하지만 속도는 무려 100배나 빠르다고 합니다.
흥미롭게도 Sana 프롬프트 단어는 영어, 중국어, 이모티콘을 지원합니다. 사용자는 한시를 입력하고 이와 관련된 예술적 이미지를 생성할 수 있습니다. 또한 Sana는 사용자가 부적절한 단어를 입력하면 시스템이 자동으로 이를 레드 하트 패턴으로 대체하여 부적절한 콘텐츠가 생성되지 않도록 어느 정도의 보안을 갖추고 있습니다.
예를 들어 AIbase가 "A cat is play in the grass, star"라는 프롬프트 단어를 입력하면 생성 속도가 매우 빠르고 효과도 매우 좋습니다.
또 다른 예를 들어, "귀엽게 먹는 모습, 수묵화풍"이라는 프롬프트가 주어지면 모델이 이모지를 정확하게 식별하는 것을 볼 수 있습니다.
Sana가 ComfyUI에 대한 공식 지원을 받았으며 Lora 교육 도구를 갖추고 있다는 점은 언급할 가치가 있습니다. 이를 통해 사용자는 더욱 편리하게 사용할 수 있으며, 관심 있는 친구들이 직접 사용해 볼 수도 있어 실용성도 크게 향상되었습니다.
프로젝트 입구: https://nv-sana.mit.edu/
가장 밝은 부분:
** 효율적인 생성 **: Sana는 일반 노트북 GPU에서 사용하기에 적합한 최대 4096×4096 해상도의 고품질 이미지를 빠르게 생성할 수 있습니다.
**혁신적인 디자인**: 심층 압축 자동 인코더 및 선형 확산 변환기는 생성 속도와 품질을 크게 향상시킵니다.
**우수한 성능**: Sana는 다른 고급 모델보다 훨씬 높은 처리량으로 여러 테스트에서 좋은 성능을 발휘하여 신속한 콘텐츠 생성을 지원합니다.
전체적으로 Sana는 효율적인 생성 속도, 고품질 이미지 출력 및 편리한 사용으로 사용자에게 새로운 AI 이미지 생성 경험을 제공합니다.