Downcodes의 편집자는 Google DeepMind와 MIT(매사추세츠 공과대학)가 텍스트-이미지 생성 분야에서 큰 발전을 이루었다는 사실을 알게 되었습니다. 이들이 개발한 새로운 자기회귀 모델 Fluid는 105억 매개변수 규모에서 뛰어난 성능을 보여 이미지 생성 분야에서 자기회귀 모델에 대한 업계의 이해를 뒤집습니다. 본 연구의 핵심은 연속 단어 요소와 무작위 생성 순서를 혁신적으로 도입하여 모델의 성능과 확장성을 크게 향상시키고 이미지 생성 기술에 새로운 방향을 제시하는 데 있습니다.
구글 딥마인드(Google DeepMind)와 매사추세츠 공과대학(MIT)이 최근 주요 연구 결과를 발표했다. 연구팀이 개발한 새로운 자기회귀 모델 Fluid는 텍스트-이미지 생성 분야에서 획기적인 발전을 이루었습니다. 이 모델은 105억 개의 매개변수 규모로 확장된 후 탁월한 성능을 발휘합니다.
이번 연구는 업계의 통념을 뒤집는다. 이전에는 자동 회귀 모델이 언어 처리 분야를 지배했지만 이미지 생성에서는 Stable Diffusion 및 Google Imagen3와 같은 확산 모델보다 열등한 것으로 간주되었습니다. 연구원들은 두 가지 주요 설계 요소, 즉 개별 단어 요소 대신 연속 단어 요소를 사용하고 고정 순서 대신 무작위로 생성된 순서를 도입하는 방식을 혁신적으로 도입하여 자기회귀 모델의 성능과 확장성을 크게 개선했습니다.
이미지 정보 처리 측면에서 연속 단어 요소는 분명한 장점을 가지고 있습니다. 기존의 개별 토큰은 이미지 영역을 제한된 어휘의 코드로 인코딩합니다. 이러한 접근 방식은 필연적으로 정보 손실로 이어지며 대형 모델이라도 대칭적인 눈과 같은 세부적인 특징을 정확하게 생성하기가 어렵습니다. 연속적인 단어 요소는 보다 정확한 정보를 저장하고 이미지 재구성 품질을 크게 향상시킬 수 있습니다.
연구팀은 이미지 생성 순서도 혁신했다. 기존의 자기회귀 모델은 일반적으로 왼쪽에서 오른쪽, 위에서 아래로 고정된 순서로 이미지를 생성합니다. 연구원들은 모델이 각 단계의 모든 위치에서 여러 픽셀을 예측할 수 있도록 무작위 순차 접근 방식을 시도했습니다. 이 방법은 전체 이미지 구조를 잘 파악해야 하는 작업에서 잘 수행되며, 텍스트와 생성된 이미지의 일치를 측정하는 GenEval 벤치마크 테스트에서 상당한 이점을 얻었습니다.
Fluid 모델의 실제 성능은 연구의 가치를 확인시켜줍니다. 105억 개의 매개변수로 확장한 후 Fluid는 여러 중요한 벤치마크에서 기존 모델보다 성능이 뛰어났습니다. 3억 6900만 개의 매개변수만 가진 소형 Fluid 모델이 MS-COCO 데이터 세트에서 200억 개의 매개변수를 가진 Parti 모델의 FID 점수(7.23)에 도달했다는 점은 주목할 가치가 있습니다.
이 연구 결과는 Fluid와 같은 자기회귀 모델이 확산 모델의 강력한 대안이 될 가능성이 있음을 보여줍니다. 다중 정방향 및 역방향 패스가 필요한 확산 모델과 비교할 때 Fluid는 이미지를 생성하는 데 단일 패스만 필요합니다. 이러한 효율성 이점은 모델이 더욱 확장될수록 더욱 분명해집니다.
이 연구는 텍스트-이미지 생성 분야에 새로운 가능성을 가져왔고, Fluid 모델의 출현은 이미지 생성 분야에서 자동회귀 모델의 등장을 의미합니다. 앞으로는 Fluid 모델을 기반으로 한 더 많은 응용과 개선이 인공지능 이미지 생성 기술의 발전을 더욱 촉진할 것으로 기대됩니다. Downcodes의 편집자는 이 분야의 최신 개발에 계속해서 관심을 기울이고 독자들에게 더 흥미로운 콘텐츠를 제공할 것입니다.