단 10억 개의 매개변수! AI 이미지 생성 모델 Meissonic AI는 휴대폰에서 고품질 이미지를 생성할 수 있습니다.

저자：Eve Cole 업데이트 시간：2024-12-10 10:48:01

Downcodes의 편집자는 다음과 같이 보고합니다. Meissonic이라는 오픈 소스 AI 이미지 생성 모델이 등장했습니다. 단 10억 개의 매개변수만으로 고품질 이미지를 생성할 수 있습니다. AI 이미지 생성 분야의 경량 거인이라고 할 수 있습니다! 이는 R&D 팀(Alibaba, Skywork AI 및 여러 대학의 연구원)이 채택한 고유한 변환기 아키텍처와 새로운 교육 방법 때문입니다. 메이소닉은 일반 게임용 PC에서 실행할 수 있을 뿐만 아니라, 향후 휴대폰에 현지화된 텍스트-이미지 변환 애플리케이션을 구현할 것으로 예상되며, 이를 통해 AI 이미지 생성의 진입 문턱이 크게 낮아질 것입니다.

최근 과학 연구팀은 메이소닉(Meissonic)이라는 오픈소스 AI 이미지 생성 모델을 공동 출시했다. 놀랍게도 이 모델은 10억 개의 매개변수만 사용하여 고품질 이미지를 생성할 수 있습니다. 이 컴팩트한 디자인은 Meissonic에게 모바일 장치에서 텍스트를 이미지로 변환하는 애플리케이션을 현지화할 수 있는 잠재력을 제공합니다.

이 기술을 뒷받침하는 R&D 팀에는 Alibaba, Skywork AI 및 여러 대학의 연구원이 포함되어 있습니다. 그들은 독특한 변환기 아키텍처와 새로운 교육 방법을 사용하여 Meissonic이 일반 게임 PC는 물론 향후 휴대폰에서도 실행될 수 있도록 했습니다.

Meissonic의 훈련 방법은 "마스크된 이미지 모델링"이라는 기술을 사용합니다. 이는 단순히 훈련 과정에서 이미지의 일부가 숨겨지는 것을 의미합니다. 모델은 보이는 영역과 텍스트 설명을 기반으로 누락된 부품을 재구성하는 방법을 학습합니다. 이 접근 방식은 모델이 이미지 요소와 텍스트 간의 관계를 이해하는 데 도움이 됩니다.

Meissonic의 아키텍처를 사용하면 현실적인 장면이든 양식화된 텍스트, 이모티콘, 심지어 만화 스티커이든 상관없이 1024x1024 픽셀의 고해상도 이미지를 생성할 수 있습니다.

점진적으로 이미지를 생성하는 기존 자동 회귀 모델과 달리 Meissonic은 병렬 반복 최적화를 통해 모든 이미지 정보를 동시에 예측합니다. 이 혁신은 디코딩 단계를 크게 줄여 시간을 약 99% 단축하고 이미지 생성 속도를 크게 향상시킵니다.

모델을 구축하는 과정에서 연구원들은 다음 네 단계를 거쳤습니다.

먼저 2억 개의 256x256 픽셀 이미지를 사용하여 모델 기본 개념을 가르쳤습니다. 그런 다음 엄격하게 선별된 1천만 개의 이미지-텍스트 쌍을 사용하여 텍스트 이해 기능을 향상시킨 다음 특수 압축 레이어를 추가하여 모델을 출력할 수 있었습니다. 1024x1024 픽셀별 이미지, 마지막으로 인간 선호도에 대한 데이터를 통합하여 모델 성능을 향상시키는 미세 조정을 수행했습니다.

흥미롭게도 Meissonic은 더 적은 수의 매개변수에도 불구하고 여러 벤치마크에서 SDXL 및 DeepFloyd-XL과 같은 일부 대형 모델을 능가하여 28.83이라는 높은 "인간 선호도 점수"를 달성했습니다. 또한 Meissonic은 추가 교육 없이도 이미지 패치 및 확장이 가능하므로 사용자는 누락된 이미지 부분을 쉽게 추가하거나 기존 이미지를 창의적으로 향상시킬 수 있습니다.

연구팀은 이 방법이 맞춤형 AI 이미지 생성기의 신속하고 저렴한 개발을 촉진할 수 있으며, 모바일 기기에서 텍스트를 이미지로 변환하는 애플리케이션 개발도 촉진할 수 있을 것으로 기대하고 있습니다. 관심 있는 친구들은 Hugging Face에서 데모 버전을 찾고 GitHub에서 모델 코드를 볼 수 있습니다. 이 모델은 일반 8GB 비디오 메모리를 갖춘 소비자 GPU에서 쉽게 실행할 수 있습니다.

데모:https://huggingface.co/spaces/MeissonFlow/meissonic

프로젝트: https://github.com/viiika/Meissonic

가장 밝은 부분:

Meissonic은 10억 개의 매개변수만으로 고품질 이미지를 생성할 수 있는 오픈소스 AI 모델로, 일반 게이밍 PC와 미래의 모바일 기기에서 사용하기에 적합합니다.

Meissonic은 병렬 반복 최적화 교육 방법을 사용하여 기존 모델보다 99% 더 빠르게 이미지를 생성할 수 있습니다.

? 작은 매개변수 크기에도 불구하고 Meissonic은 여러 테스트에서 더 큰 모델보다 성능이 뛰어나며 훈련이 필요 없는 이미지 인페인팅 및 확장을 가능하게 합니다.

전체적으로 Meissonic의 등장은 AI 이미지 생성 분야에 새로운 가능성을 가져왔습니다. 가벼운 디자인과 효율적인 성능은 기대할 가치가 있습니다! Downcodes의 편집자는 모든 사람이 Hugging Face 및 GitHub로 이동하여 이 강력한 AI 모델을 경험하고 탐색할 것을 권장합니다.