이미지 생성 분야에서 상당한 진전이 있었지만 기존 모델의 한계는 언어 비전 모델의 통일성을 방해했습니다. 이 기사는 Meissonic이라는 새로운 텍스트-이미지 모델을 소개합니다. Meissonic은 10 억 개의 매개 변수로 최첨단 확산 모델 (예 : SDXL)을 달성하기 위해 MIMS (Masked Image Modeling) 기술을 사용합니다. 상당한 이미지 생성 품질. Meissonic은 건축 혁신, 위치 코딩 전략 및 최적화 된 샘플링 조건으로 MIM 성능과 효율성을 크게 향상시키고 소비자 GPU에서 1024 × 1024 해상도 이미지를 생성합니다.
Meissonic의 중심에는 MIM 성능과 효율성을 크게 향상시키는 다양한 건축 혁신, 고급 위치 코딩 전략 및 최적화 된 샘플링 조건이 있습니다. 또한 Meissonic은 고품질 교육 데이터를 사용하고, 인간 선호도 점수를 기반으로 한 미세 조건을 통합하며, 기능 압축 계층을 채택하여 이미지의 충실도와 해상도를 더욱 향상시킵니다.
SDXL 및 Deepfloyd-XL과 같은 대규모 확산 모델과 달리 Meissonic은 10 억 개의 매개 변수를 가지고 있지만 1024 × 1024 해상도로 고품질 이미지를 생성 할 수 있으며 추가 모델없이 8GB의 비디오 메모리만으로 소비자 GPU에서 실행할 수 있습니다. 최적화. 또한 Meissonic을 사용하면 확산 모델에서 모델 미세 조정 또는 노이즈 오프셋 조정이 필요한 단색 배경으로 이미지를 쉽게 생성 할 수 있습니다.
효율적인 교육을 달성하기 위해 Meissonic의 교육 과정은 신중하게 설계된 4 가지 단계로 분류됩니다.
첫 번째 단계 : 대규모 데이터의 기본 개념을 이해합니다. Meissonic은 필터링 된 LAION-2B 데이터 세트를 사용하여 기본 개념을 배우기 위해 256 × 256 해상도로 훈련합니다.
2 단계 : 텍스트와 이미지를 긴 프롬프트로 정렬합니다. 훈련 해상도는 512 × 512로 향상되었으며, 고품질 합성 이미지 텍스트 쌍과 내부 데이터 세트는 긴 설명 신호를 이해하는 모델의 능력을 향상시키는 데 사용됩니다.
3 단계 : 더 높은 해상도 생성을 달성하기위한 마스터 기능 압축. 기능 압축 계층을 도입함으로써 Meissonic은 512 × 512에서 1024 × 1024 생성으로 원활하게 전환 할 수 있으며 선택된 고품질 고해상도 이미지 텍스트 쌍으로 훈련 할 수 있습니다.
4 단계 : 고해상도 미적 이미지 생성 최적화. 이 단계 에서이 모델은 미세 조정에 더 작은 학습 속도를 사용하고 고품질 이미지를 생성 할 때 모델의 성능을 향상시키기 위해 미세 조정으로 인간 선호도 점수를 추가합니다.
Meissonic은 HPS, MP, Geneval Benchmarking 및 GPT4O 평가를 포함한 다양한 정량적 및 질적 지표를 통해 우수한 성능과 효율성을 보여줍니다. Dall-E2 및 SDXL과 비교할 때 Meissonic은 인간의 성능과 텍스트 정렬에서 경쟁력있는 성능을 달성했으며 효율성을 보여줍니다.
또한 Meissonic은 제로 샘플 이미지-이미지 편집에서 잘 수행되었습니다. EMU-EDIT 데이터 세트에서 Meissonic은 배경 변경, 이미지 컨텐츠 변경, 스타일 변경, 객체 제거, 객체 추가, 로컬 수정 및 색상/질감 변경을 포함하여 7 가지 다른 작업에서 주요 결과를 달성했습니다. 이미지 편집 별 데이터 또는 명령 세트를 교육하거나 미세 조정합니다.
프로젝트 주소 : https://github.com/viiika/meissonic
종이 주소 : https://arxiv.org/pdf/2410.08261
요약하면, Meissonic 모델은 효율성과 이미지 생성 품질에 상당한 혁신을 일으켜 미래의 언어 비전 모델 개발을위한 새로운 방향을 제공했습니다. 가벼운 기능을 통해 소비자 하드웨어에서 실행할 수 있으며 광범위한 응용 프로그램 전망과 함께 제로 샘플 이미지 편집에서 강력한 기능을 보여줍니다.