홍콩 대학교와 Bytedance가 공동으로 개발 한자가 회귀 이미지 생성 모델 인 Llamagen은 이미지 생성 분야에서 혁명을 시작하고 있습니다. Llama 아키텍처를 기반으로 한 혁신적인 작업으로서, 그것은 기술 분야의 전통적인 확산 모델의 한계를 겪을뿐만 아니라 오픈 소스 커뮤니티에서 열정적 인 반응을 불러 일으키는 것이 가장 좋은 증거입니다.
ImageNet 테스트 벤치 마크에서 Llamagen은 LDM 및 DIT와 같은 주류 확산 모델을 능가했습니다. 이미지 토큰 화제를 재교육함으로써 Llamagen은 Imagenet 및 Coco 데이터 세트에서 상당한 이점을 얻었으며 성능은 VQGAN, VIT-VQGAN 및 MASKGI와 같은 잘 알려진 모델을 능가했습니다.
Llamagen의 성공은 고급 이미지 압축/Quantizer, 확장 가능한 이미지 생성 모델 및 신중하게 스크리닝 된 고품질 교육 데이터의 세 가지 핵심 기술 기둥을 기반으로합니다. 연구팀은 VQ-GAN과 유사한 CNN 아키텍처를 채택하여 2 단계 교육 전략을 통해 연속 이미지를 개별 토큰으로 변환했습니다.
훈련의 첫 번째 단계에서 Llamagen은 이미지 해상도가 256 × 256의 Laion-Coco의 50m 서브 세트를 훈련시켰다. 연구팀은 효과적인 이미지 URL, 미적 점수, 워터 마크 점수 등을 포함한 엄격한 스크리닝 표준을 통해 교육 데이터의 품질을 보장했습니다. 두 번째 단계는 1 천만 스케일의 내부 고전적 품질 이미지에 미세 조정하여 이미지 해상도를 512 × 512로 증가시켜 생성 효과를 더욱 최적화합니다.
Llamagen의 핵심 장점은 우수한 이미지 토큰 화제와 Llama 아키텍처의 확장 성입니다. 실제 세대 테스트에서 Llamagen은 FID, IS, 정확성 및 리콜과 같은 주요 지표에서 강력한 경쟁력을 보여주었습니다. 이전의 자동 회귀 모델과 비교하여 Llamagen은 모든 매개 변수 주문에서 훌륭하게 수행하여 이미지 생성 분야에 대한 새로운 벤치 마크를 설정했습니다.
Llamagen은 놀라운 결과를 얻었지만 연구팀은 이것이 안정적인 확산 v1 단계의 시작일 뿐이라고 말했다. 향후 개발 방향에는 고해상도, 더 많은 종횡비, 더 강력한 제어 성 및 비디오 생성과 같은 새로운 영역을 지원하는 것이 포함됩니다. 이러한 계획에 따르면 Llamagen은 더 넓은 분야에서 이미지 생성 기술의 혁신을 계속 이끌 것입니다.
현재 Llamagen은 온라인 경험을 위해 문을 열었으며 사용자는 Llamagen 공간을 통해 얼굴을 안고있는이 혁신적인 기술을 개인적으로 경험할 수 있습니다. 동시에, Llamagen의 오픈 소스 릴리스는 또한 글로벌 개발자와 연구원이 이미지 생성 기술의 발전을 공동으로 홍보하여 참여하고 기여할 수있는 플랫폼을 제공합니다. 프로젝트 주소 및 온라인 경험 주소는 각각 https://top.aibase.com/tool/llamagen 및 https://huggingface.co/spaces/foundationvision/llamagen입니다.