Editor Downcodes melaporkan: Model pembuatan gambar AI open source bernama Meissonic telah muncul. Model ini dapat menghasilkan gambar berkualitas tinggi hanya dengan menggunakan satu miliar parameter. Model ini dapat disebut sebagai raksasa ringan di bidang pembuatan gambar AI! Hal ini disebabkan oleh arsitektur konverter yang unik dan metode pelatihan baru yang diadopsi oleh tim R&D (peneliti dari Alibaba, Skywork AI, dan berbagai universitas). Meissonic tidak hanya dapat berjalan di PC gaming biasa, tetapi juga diharapkan dapat mengimplementasikan aplikasi text-to-image yang dilokalkan pada ponsel di masa depan, yang akan sangat mengurangi ambang batas masuk untuk pembuatan gambar AI.
Baru-baru ini, tim peneliti ilmiah bersama-sama meluncurkan model pembuatan gambar AI open source yang disebut Meissonic. Yang mengejutkan, model ini mampu menghasilkan gambar berkualitas tinggi hanya dengan menggunakan satu miliar parameter. Desain ringkas ini memberi Meissonic potensi untuk melokalisasi aplikasi teks-ke-gambar pada perangkat seluler.
Tim penelitian dan pengembangan di balik teknologi ini terdiri dari para peneliti dari Alibaba, Skywork AI, dan berbagai universitas. Mereka menggunakan arsitektur konverter unik dan metode pelatihan baru untuk memungkinkan Meissonic berjalan di PC gaming biasa dan bahkan mungkin ponsel di masa depan.
Metode pelatihan Meissonic menggunakan teknik yang disebut “pemodelan gambar bertopeng”, yang berarti bagian gambar disembunyikan selama proses pelatihan. Model ini mempelajari cara merekonstruksi bagian yang hilang berdasarkan wilayah yang terlihat dan deskripsi tekstual. Pendekatan ini membantu model memahami hubungan antara elemen gambar dan teks.
Arsitektur Meissonic memungkinkannya menghasilkan gambar resolusi tinggi 1024x1024 piksel, baik itu adegan realistis atau teks bergaya, emotikon, atau bahkan stiker kartun.
Tidak seperti model autoregresif tradisional yang menghasilkan gambar secara bertahap, Meissonic memprediksi semua informasi gambar pada saat yang sama melalui optimasi iteratif paralel. Inovasi ini secara signifikan mengurangi langkah-langkah decoding, mengurangi waktu sekitar 99%, dan sangat meningkatkan kecepatan pembuatan gambar.
Dalam proses membangun model, peneliti melalui empat langkah:
Pertama, mereka menggunakan 200 juta gambar berukuran 256x256 piksel untuk mengajarkan konsep dasar model; kemudian, mereka menggunakan 10 juta pasangan gambar-teks yang disaring secara ketat untuk meningkatkan kemampuan pemahaman teksnya; kemudian, dengan menambahkan lapisan kompresi khusus, model tersebut dapat menghasilkan keluaran gambar 1024x1024 piksel demi piksel; terakhir, mereka melakukan penyesuaian yang menggabungkan data preferensi manusia untuk meningkatkan performa model.
Menariknya, meskipun memiliki jumlah parameter yang lebih sedikit, Meissonic mengungguli beberapa model yang lebih besar seperti SDXL dan DeepFloyd-XL pada beberapa tolok ukur, dengan mencapai “Skor Preferensi Manusia” yang tinggi yaitu 28,83. Selain itu, Meissonic mampu menambal dan memperluas gambar tanpa pelatihan tambahan, memungkinkan pengguna dengan mudah menambahkan bagian gambar yang hilang atau secara kreatif menyempurnakan gambar yang sudah ada.
Tim peneliti percaya bahwa metode ini dapat mendorong pengembangan generator gambar AI khusus yang cepat dan berbiaya rendah, dan juga diharapkan dapat mendorong pengembangan aplikasi teks-ke-gambar pada perangkat seluler. Teman yang tertarik dapat menemukan versi demo di Hugging Face dan melihat kode model di GitHub, yang dapat dengan mudah dijalankan pada GPU konsumen dengan memori video biasa sebesar 8 GB.
demo: https://huggingface.co/spaces/MeissonFlow/meissonic
Proyek: https://github.com/viiika/Meissonic
Menyorot:
Meissonic merupakan model AI open source yang dapat menghasilkan gambar berkualitas tinggi dengan hanya satu miliar parameter, cocok untuk digunakan pada PC gaming biasa dan perangkat seluler masa depan.
Dengan menggunakan metode pelatihan optimasi berulang paralel, Meissonic dapat menghasilkan gambar 99% lebih cepat dibandingkan model tradisional.
Meskipun ukuran parameternya kecil, Meissonic mengungguli model yang lebih besar dalam beberapa pengujian dan memungkinkan pengecatan dan perluasan gambar tanpa pelatihan.
Secara keseluruhan, kemunculan Meissonic telah membawa kemungkinan-kemungkinan baru dalam bidang pembuatan gambar AI. Desainnya yang ringan dan kinerjanya yang efisien layak untuk dinantikan! Editor Downcodes merekomendasikan agar semua orang membuka Hugging Face dan GitHub untuk merasakan dan menjelajahi model AI yang hebat ini.