Editor Downcodes akan membawa Anda mempelajari tentang Meissonic, model pembuatan teks-ke-gambar dengan hanya 1 miliar parameter yang dapat menghasilkan gambar definisi tinggi 1024×1024. Ini menerobos keterbatasan model seperti Difusi Stabil dan meningkatkan teknologi pemodelan gambar topeng non-autoregresif (MIM) ke tingkat yang baru. Kinerja dan efisiensinya sebanding dengan model difusi teratas seperti SDXL. Inovasi Meissonic terletak pada desain arsitekturnya yang unik, strategi pengkodean posisi yang canggih, dan kondisi pengambilan sampel yang dioptimalkan, yang memungkinkannya berjalan pada GPU tingkat konsumen tanpa pengoptimalan tambahan. Yang lebih mengejutkan lagi adalah ia dapat dengan mudah menghasilkan gambar dengan latar belakang warna solid, yang biasanya memerlukan penyesuaian rumit dalam model difusi.
Inti dari Meissonic terletak pada serangkaian inovasi arsitektur, strategi pengkodean posisi canggih, dan kondisi pengambilan sampel yang dioptimalkan. Peningkatan ini secara signifikan meningkatkan kinerja dan efisiensi MIM. Selain itu, Meissonic memanfaatkan data pelatihan berkualitas tinggi, mengintegrasikan pengkondisian mikro berdasarkan skor preferensi manusia, dan menggunakan lapisan kompresi fitur untuk lebih meningkatkan fidelitas dan resolusi gambar.
Berbeda dengan model difusi besar seperti SDXL dan DeepFloyd-XL, Meissonic hanya memiliki 1 miliar parameter, namun dapat menghasilkan gambar berkualitas tinggi dengan resolusi 1024x1024, dan dapat berjalan pada GPU kelas konsumen dengan memori video hanya 8GB tanpa Model tambahan apa pun. optimasi. Selain itu, Meissonic dapat dengan mudah menghasilkan gambar dengan latar belakang warna solid, yang dalam model difusi sering kali memerlukan penyesuaian model atau penyesuaian offset noise.
Untuk mencapai pelatihan yang efisien, proses pelatihan Meissonic dipecah menjadi empat tahap yang dirancang dengan cermat:
Tahap pertama: Memahami konsep dasar dari data yang masif. Meissonic menggunakan kumpulan data LAION-2B yang difilter untuk berlatih pada resolusi 256×256 guna mempelajari konsep dasar.
Fase 2: Sejajarkan teks dan gambar menggunakan tip panjang. Resolusi pelatihan ditingkatkan menjadi 512×512, dan pasangan gambar-teks sintetis berkualitas tinggi serta kumpulan data internal digunakan untuk meningkatkan kemampuan model dalam memahami isyarat deskriptif yang panjang.
Tahap 3: Master kompresi fitur untuk mencapai generasi resolusi yang lebih tinggi. Dengan memperkenalkan lapisan kompresi fitur, Meissonic dapat dengan mulus bertransisi dari generasi 512×512 ke 1024×1024 dan berlatih dengan pilihan pasangan gambar-teks resolusi tinggi berkualitas tinggi.
Tahap 4: Mengoptimalkan pembuatan gambar estetika resolusi tinggi. Pada tahap ini, model disempurnakan menggunakan kecepatan pembelajaran yang lebih kecil dan skor preferensi manusia ditambahkan sebagai kondisi mikro untuk meningkatkan performa model dalam menghasilkan gambar berkualitas tinggi.
Meissonic menunjukkan kinerja dan efisiensi yang unggul di berbagai metrik kuantitatif dan kualitatif, termasuk HPS, MPS, tolok ukur GenEval, dan evaluasi GPT4o. Dibandingkan dengan DALL-E2 dan SDXL, Meissonic mencapai kinerja kompetitif baik dalam kinerja manusia maupun penyelarasan teks, sekaligus menunjukkan efisiensi tinggi.
Selain itu, Meissonic unggul dalam pengeditan gambar-ke-gambar tanpa sampel. Pada dataset EMU-Edit, Meissonic mencapai hasil terbaik dalam tujuh operasi berbeda, termasuk perubahan latar belakang, perubahan konten gambar, perubahan gaya, penghapusan objek, penambahan objek, modifikasi lokal, dan perubahan warna/tekstur, yang semuanya tidak memerlukan pelatihan atau denda -menyetel data atau set instruksi khusus pengeditan gambar.
Alamat proyek: https://github.com/viiika/Meissonic
Alamat makalah: https://arxiv.org/pdf/2410.08261
Dengan efisiensi dan kinerja tinggi, Meissonic menghadirkan kemungkinan-kemungkinan baru dalam bidang pembuatan gambar. Desainnya yang ringan membuatnya lebih mudah digunakan oleh pengguna massal dan juga memberikan ide-ide baru untuk arah penelitian di masa depan. Teman-teman yang berminat dapat mengunjungi alamat proyek dan alamat skripsi untuk informasi lebih lanjut.