고해상도의 사실적인 이미지를 텍스트에서 이미지로 생성하는 것은 컴퓨터 비전 분야에서 항상 어려운 문제였습니다. 확산 모델, 변환 자기회귀 모델과 같은 전통적인 생성 방법은 고품질 이미지를 생성할 수 있지만 엄청난 컴퓨팅 리소스 소비와 세부 정보 손실 등의 문제에 직면합니다. ByteDance가 제안한 새로운 프레임워크 "Infinity"는 이러한 문제를 해결하는 것을 목표로 하며 혁신적인 비트 수준 태깅 및 무한 어휘 분류기를 통해 생성 효율성과 이미지 품질을 크게 향상시킵니다.
이미지 생성 분야에서 고해상도 및 사실적인 이미지 작업은 특히 텍스트-이미지 합성 프로세스에서 항상 여러 가지 과제에 직면해 있습니다. 전통적인 생성 방법은 주로 확산 모델과 변환 자동 회귀(VAR) 프레임워크에 의존합니다.
이러한 모델은 고품질 이미지를 생성할 수 있지만 많은 양의 컴퓨팅 리소스를 소비하므로 실시간 애플리케이션에 유연하지 않습니다. 동시에 VAR 모델은 개별 마커를 처리할 때 누적 오류가 발생하기 쉬우며 생성된 이미지의 세부 정보가 손실되어 이미지의 사실성에 영향을 미칩니다.
이러한 단점을 극복하기 위해 ByteDance 연구팀은 텍스트-이미지 합성의 효율성과 품질을 향상시키도록 설계된 "Infinity"라는 새로운 프레임워크를 출시했습니다.
Infinity는 기존의 인덱스 수준 태그 대신 비트 수준 태그를 도입하여 보다 세밀한 표현을 달성함으로써 양자화 오류를 크게 줄이고 생성된 이미지의 사실성을 향상시킵니다. 또한 프레임워크는 IVC(Infinite Vocabulary Classifier)를 사용하여 토큰 어휘를 2^64로 확장하여 메모리 및 컴퓨팅 요구 사항을 크게 줄입니다.
Infinity 아키텍처는 주로 계산 오버헤드를 위해 이미지 특징을 이진 태그로 변환하는 비트 수준 다중 스케일 양자화 태거, 텍스트 단서 및 이전 출력 차이를 기반으로 잔차를 예측하는 변환기 기반 자동 회귀 모델로 구성됩니다. 오류에 대한 모델의 견고성을 향상시키기 위해 훈련 과정 중에 무작위 비트 플립을 도입하는 자체 수정 메커니즘입니다. 연구팀은 학습을 위해 LAION, OpenImages 등의 대용량 데이터 세트를 사용했으며, 이미지 해상도를 256×256에서 1024×102로 점차 높여가며 상당한 진전을 이루었습니다.
평가 결과 Infinity는 GenEval 점수가 0점, FID(Fréchet Inception Distance)가 3.48로 감소하는 등 핵심 지표에서 탁월한 성능을 보여 발전 속도와 품질이 향상되었음을 입증했습니다. Infinity는 0.8초 만에 1024×1024 고해상도 이미지를 생성할 수 있어 효율성과 신뢰성을 입증합니다. 시스템에 의해 생성된 이미지는 시각적으로 사실적이고 세부 묘사가 풍부할 뿐만 아니라 복잡한 텍스트 지시에도 정확하게 응답하여 인간의 선호도 점수가 높습니다.
Infinity의 출시는 고해상도 텍스트-이미지 합성 분야의 새로운 기준이 되며, 혁신적인 디자인으로 오랫동안 지속되어 온 확장성과 디테일 품질 문제를 해결함으로써 생성 AI의 추가 개발을 촉진합니다.
논문: https://arxiv.org/abs/2412.04431
가장 밝은 부분:
? **혁신적인 프레임워크 Infinity:** Bytedance가 출시한 Infinity 프레임워크는 비트 수준 토큰화 및 무제한 어휘 분류를 통해 고해상도 이미지 생성의 효율성을 크게 향상시킵니다.
⚡ **우수한 성능:** 핵심 평가 지표에서 기존 모델을 능가하는 Infinity는 0.8초 만에 1024×1024 고화질 이미지를 생성할 수 있습니다.
?️ ** 사실적인 디테일과 반응성: ** 생성된 이미지는 시각적으로 사실적일 뿐만 아니라 복잡한 텍스트 프롬프트에도 정확하게 반응하여 높은 인간 선호도 점수를 보여줍니다.
전체적으로 Infinity 프레임워크는 고해상도 텍스트-이미지 생성을 위한 효율적인 고품질 솔루션을 제공하여 속도, 이미지 품질 및 복잡한 텍스트 지침에 대한 응답성에서 획기적인 발전을 달성하고 생성을 위한 강력한 플랫폼을 제공합니다. AI가 새로운 이정표를 세웠습니다.