Downcodes의 편집자는 1024×1024 고화질 이미지를 생성할 수 있는 10억 개의 매개변수만 가진 텍스트-이미지 생성 모델인 Meissonic에 대해 배울 수 있도록 안내합니다. Stable Diffusion과 같은 모델의 한계를 극복하고 비자기회귀 마스크 이미지 모델링(MIM) 기술을 새로운 수준으로 끌어올렸습니다. 성능과 효율성은 SDXL과 같은 상위 확산 모델과 비슷합니다. Meissonic의 혁신은 추가적인 최적화 없이 소비자급 GPU에서 실행될 수 있도록 하는 고유한 아키텍처 설계, 고급 위치 인코딩 전략 및 최적화된 샘플링 조건에 있습니다. 더욱 놀라운 점은 일반적으로 확산 모델에서 복잡한 조정이 필요한 단색 배경의 이미지를 쉽게 생성할 수 있다는 것입니다.
Meissonic의 핵심은 일련의 아키텍처 혁신, 고급 위치 인코딩 전략 및 최적화된 샘플링 조건에 있으며 이러한 개선 사항은 MIM의 성능과 효율성을 크게 향상시킵니다. 또한 Meissonic은 고품질 교육 데이터를 활용하고 인간 선호도 점수를 기반으로 한 마이크로 컨디셔닝을 통합하며 기능 압축 레이어를 사용하여 이미지 충실도와 해상도를 더욱 향상시킵니다.
SDXL, DeepFloyd-XL 등의 대형 확산 모델과 달리 Meissonic은 10억 개의 매개변수만 가지고 있지만 1024×1024 해상도의 고품질 이미지를 생성할 수 있으며 추가 모델 없이 단 8GB의 비디오 메모리만으로 소비자급 GPU에서 실행할 수 있습니다. 최적화. 또한 Meissonic은 단색 배경의 이미지를 쉽게 생성할 수 있는데, 확산 모델에서는 모델 미세 조정이나 노이즈 오프셋 조정이 필요한 경우가 많습니다.
효율적인 교육을 달성하기 위해 Meissonic의 교육 프로세스는 세심하게 설계된 4가지 단계로 나뉩니다.
1단계: 대용량 데이터로부터 기본 개념을 이해합니다. Meissonic은 필터링된 LAION-2B 데이터 세트를 사용하여 256×256 해상도로 학습하여 기본 개념을 학습합니다.
2단계: 긴 팁을 사용하여 텍스트와 이미지를 정렬합니다. 훈련 해상도는 512×512로 증가하고 고품질 합성 이미지-텍스트 쌍과 내부 데이터세트를 사용하여 긴 설명 단서를 이해하는 모델의 능력을 향상시킵니다.
3단계: 더 높은 해상도 생성을 달성하기 위한 마스터 기능 압축. 기능 압축 레이어를 도입함으로써 Meissonic은 512×512 생성에서 1024×1024 생성으로 원활하게 전환하고 고품질 고해상도 이미지-텍스트 쌍을 선택하여 학습할 수 있습니다.
4단계: 고해상도 미적 이미지 생성 최적화. 이 단계에서는 고품질 이미지를 생성하는 모델의 성능을 향상시키기 위해 더 작은 학습률을 사용하여 모델을 미세 조정하고 인간 선호도 점수를 미세 조건으로 추가합니다.
Meissonic은 HPS, MPS, GenEval 벤치마크 및 GPT4o 평가를 포함한 다양한 정량적 및 정성적 지표에서 탁월한 성능과 효율성을 보여줍니다. DALL-E2 및 SDXL과 비교하여 Meissonic은 인간 성능과 텍스트 정렬 모두에서 경쟁력 있는 성능을 달성하는 동시에 높은 효율성을 보여줍니다.
또한 Meissonic은 제로 샘플 이미지 간 편집에 탁월합니다. EMU-Edit 데이터세트에서 Meissonic은 배경 변경, 이미지 콘텐츠 변경, 스타일 변경, 개체 제거, 개체 추가, 로컬 수정, 색상/질감 변경을 포함한 7가지 작업에서 최고의 결과를 달성했습니다. 모두 교육이나 세부 작업이 필요하지 않습니다. -이미지 편집 관련 데이터 또는 명령 세트 조정.
프로젝트 주소: https://github.com/viiika/Meissonic
논문 주소: https://arxiv.org/pdf/2410.08261
효율성과 고성능을 통해 Meissonic은 이미지 생성 분야에 새로운 가능성을 제시합니다. 가벼운 디자인으로 인해 대량 사용자가 더 쉽게 사용할 수 있으며 향후 연구 방향에 대한 새로운 아이디어를 제공합니다. 관심 있는 친구는 프로젝트 주소와 논문 주소를 방문하여 자세한 내용을 확인할 수 있습니다.