Kemajuan yang signifikan telah dibuat di bidang pembuatan gambar, tetapi keterbatasan model yang ada telah menghambat kesatuan model visi bahasa. Artikel ini memperkenalkan model teks-ke-gambar baru yang disebut teknologi Meisonic, yang menggunakan teknologi pemodelan gambar bertopeng (MIM) non-autoregression untuk mencapai model difusi canggih (seperti SDXL) dengan hanya 1 miliar parameter yang diperlukan.) Kualitas pembuatan gambar yang cukup besar. Meisonic secara signifikan meningkatkan kinerja dan efisiensi MIM dengan inovasi arsitekturnya, strategi pengkodean lokasi, dan kondisi pengambilan sampel yang dioptimalkan, dan mencapai generasi gambar resolusi 1024 × 1024 pada GPU konsumen.
Di jantung Meissonic adalah serangkaian inovasi arsitektur, strategi pengkodean posisi canggih, dan kondisi pengambilan sampel yang dioptimalkan yang secara signifikan meningkatkan kinerja dan efisiensi MIM. Selain itu, Meissonic juga menggunakan data pelatihan berkualitas tinggi, mengintegrasikan kondisi mikro berdasarkan skor preferensi manusia, dan mengadopsi lapisan kompresi fitur untuk lebih meningkatkan kesetiaan dan resolusi gambar.
Tidak seperti model difusi besar seperti SDXL dan Deepfloyd-XL, Meissonic hanya memiliki 1 miliar parameter, tetapi dapat menghasilkan gambar berkualitas tinggi dengan resolusi 1024 × 1024 dan dapat berjalan pada GPU kelas konsumen dengan hanya 8GB memori video tanpa model tambahan apa pun optimasi. Selain itu, Meissonic memudahkan untuk menghasilkan gambar dengan latar belakang warna solid, yang sering membutuhkan penyesuaian penyempurnaan model atau noise offset dalam model difusi.
Untuk mencapai pelatihan yang efisien, proses pelatihan Meissonic dipecah menjadi empat tahap yang dirancang dengan hati -hati:
Tahap pertama: Memahami konsep dasar dari data besar -besaran. Meisicy menggunakan dataset Laion-2b yang difilter untuk berlatih pada resolusi 256 × 256 untuk mempelajari konsep dasar.
Tahap 2: Sejajarkan teks dan gambar dengan permintaan panjang. Resolusi pelatihan ditingkatkan menjadi 512 × 512, dan pasangan teks gambar sintetis berkualitas tinggi dan dataset internal digunakan untuk meningkatkan kemampuan model untuk memahami isyarat deskriptif panjang.
Tahap 3: Kompresi fitur master untuk mencapai generasi resolusi yang lebih tinggi. Dengan memperkenalkan lapisan kompresi fitur, Meissonic dapat bertransisi dengan mulus dari 512 × 512 hingga 1024 × 1024 generasi dan dilatih dengan pasangan yang dipilih dari teks gambar beresolusi tinggi berkualitas tinggi.
Tahap 4: Mengoptimalkan pembuatan gambar estetika resolusi tinggi. Pada tahap ini, model menggunakan tingkat pembelajaran yang lebih kecil untuk menyempurnakan dan menambahkan skor preferensi manusia sebagai mikrokondisi untuk meningkatkan kinerja model dalam menghasilkan gambar berkualitas tinggi.
Meissonic menunjukkan kinerja dan efisiensi yang unggul melalui serangkaian metrik kuantitatif dan kualitatif, termasuk HPS, MPS, pembandingan genev, dan evaluasi GPT4O. Dibandingkan dengan Dall-E2 dan SDXL, Meisicy telah mencapai kinerja kompetitif dalam kinerja manusia dan penyelarasan teks, sementara juga menunjukkan efisiensinya.
Selain itu, Meissonic telah berkinerja baik dalam pengeditan gambar-ke-gambar nol-sampel. Pada dataset EMU-Edit, Meisonic telah mencapai hasil utama dalam tujuh operasi yang berbeda, termasuk perubahan latar belakang, perubahan konten gambar, perubahan gaya, penghapusan objek, penambahan objek, modifikasi lokal, dan perubahan warna/tekstur, yang semuanya tidak perlu mereka butuhkan Untuk melatih atau menyempurnakan pada data atau set instruksi khusus edit gambar.
Alamat Proyek: https://github.com/viiika/meissonic
Alamat kertas: https://arxiv.org/pdf/2410.08261
Singkatnya, model Meissonic telah membuat terobosan yang signifikan dalam efisiensi dan kualitas pembuatan gambar, memberikan arah baru untuk pengembangan model visi bahasa di masa depan. Fitur-fiturnya yang ringan memungkinkannya berjalan pada perangkat keras konsumen dan menunjukkan kemampuannya yang kuat dalam pengeditan gambar nol-sampel, dengan prospek aplikasi yang luas.