ByteDance의 상용화 기술 팀은 최신 개발된 Vincent 그래프 모델 Infinity를 오픈 소스화했습니다. 이 모델은 Stable Diffusion 3 및 HART와 같은 업계 최고의 모델을 능가하는 이미지 생성 품질과 추론 속도에서 획기적인 발전을 이루었습니다. Infinity 모델의 핵심 혁신은 고유한 Bitwise Token 자동 회귀 프레임워크와 무한한 어휘에 있습니다. 이를 통해 모델은 더 미세한 이미지 세부 정보를 캡처하고 생성된 이미지의 품질 및 성능 상한을 크게 향상시킬 수 있습니다. 이번 글에서는 Infinity 모델의 기술적 세부사항과 성능, 오픈소스 현황을 자세하게 소개하겠습니다.
인공지능 분야에서 바이트댄스 상용화 기술팀의 최신 성과인 인피니티(Infinity) 모델은 뛰어난 성능과 혁신적인 기술로 자동회귀 빈센트 그래프 분야의 새로운 제왕으로 자리매김했습니다. 이 새로운 오픈 소스 모델은 이미지 생성 품질에서 Stable Diffusion3을 능가할 뿐만 아니라 추론 속도에서도 상당한 이점을 보여줍니다.
Infinity 모델의 핵심 혁신은 Bitwise Token 자동 회귀 프레임워크를 채택한 것입니다. 이 프레임워크는 다음에 +1 또는 -1로 구성된 세분화된 "Bitwise Token"을 예측하여 모델의 고주파 신호 감지 기능을 크게 향상시킵니다. 수준의 캡처 기능을 통해 더욱 자세한 이미지를 얻을 수 있습니다. 또한 Infinity 모델은 어휘를 무한대로 확장하여 Image Tokenizer의 표현 공간을 크게 향상시키고 Autoregressive Venogram의 성능 상한을 향상시킵니다.
성능 비교에서 Infinity 모델은 HART, LlamaGen, Emu3 및 기타 방법을 훨씬 능가하는 자동 회귀 방법 중에서 탁월한 성능을 발휘했으며 인간 평가에서는 거의 90%의 승률로 HART 모델을 이겼습니다. 동시에 Infinity는 PixArt-Sigma, SD-XL, SD3-Meidum 등 SOTA의 확산 모델을 75%, 80%, 65%의 승률로 제압하며 동급 모델 간의 장점을 입증했습니다. .
Infinity 모델의 또 다른 주요 특징은 우수한 스케일링 특성입니다. 모델 크기가 증가하고 훈련 리소스가 투자됨에 따라 검증 세트 손실은 꾸준히 감소하고 검증 세트 정확도는 꾸준히 증가합니다. 또한 Infinity는 모델의 자기 수정 능력을 향상시키고 자기회귀 추론 시 누적 오류 문제를 완화하는 비트 자기 수정 기술도 제안했습니다.
추론 속도 면에서 Infinity는 VAR의 속도 장점을 그대로 이어받았습니다. 2B 모델은 1024x1024 이미지를 생성하는 데 단 0.8초가 소요됩니다. 이는 동일한 크기의 SD3-Medium보다 3배 빠르고, 12B Flux Dev보다 14배 빠릅니다. . 8B 모델은 같은 크기의 SD3.5보다 7배 빠르다. 20B 모델은 1024x1024 이미지를 생성하는 데 3초가 걸리며, 이는 12B Flux Dev보다 거의 4배 빠르다.
현재 Infinity 모델의 훈련 및 추론 코드, 데모, 모델 가중치가 GitHub 웨어하우스에 출시되었으며, 사용자가 모델 효과를 시험해 보고 평가할 수 있도록 웹사이트 경험도 제공됩니다.
프로젝트 페이지: https://foundationvision.github.io/infinity.project/
전체적으로 Infinity 모델은 고급 기술 아키텍처, 우수한 성능 및 편리한 오픈 소스 방법을 통해 자동 회귀 Vincentian 그래프 분야에 새로운 혁신을 가져왔으며 이는 관심과 추가 연구가 필요합니다. 효율적인 추론 속도와 고품질 이미지 생성 기능은 실제 응용 분야에서 큰 잠재력을 제공합니다.