Editor Downcodes mengetahui bahwa Google DeepMind dan Massachusetts Institute of Technology (MIT) telah mencapai terobosan besar dalam bidang pembuatan teks-ke-gambar. Model autoregresif Fluid baru yang mereka kembangkan menunjukkan kinerja luar biasa pada skala parameter 10,5 miliar, menumbangkan pemahaman industri tentang model autoregresif di bidang pembuatan gambar. Inti dari penelitian ini terletak pada pengenalan inovatif elemen kata berkelanjutan dan urutan pembuatan acak, yang secara signifikan meningkatkan kinerja dan skalabilitas model serta membawa arah baru pada teknologi pembuatan gambar.
Google DeepMind dan Massachusetts Institute of Technology (MIT) baru-baru ini merilis hasil penelitian besar. Model autoregresif baru Fluid yang dikembangkan oleh tim peneliti telah membuat kemajuan terobosan di bidang pembuatan teks-ke-gambar. Model ini memiliki kinerja luar biasa setelah diperluas ke skala 10,5 miliar parameter.
Penelitian ini meruntuhkan persepsi umum di industri. Sebelumnya, meskipun model autoregresif mendominasi bidang pemrosesan bahasa, model tersebut dianggap kalah dengan model difusi seperti Difusi Stabil dan Google Imagen3 dalam pembuatan gambar. Para peneliti secara signifikan meningkatkan kinerja dan skalabilitas model autoregresif dengan secara inovatif memperkenalkan dua faktor desain utama: menggunakan elemen kata yang berkelanjutan, bukan elemen kata yang terpisah, dan memperkenalkan urutan yang dihasilkan secara acak, bukan urutan tetap.
Dalam hal pemrosesan informasi gambar, elemen kata yang berkesinambungan memiliki keuntungan yang jelas. Token diskrit tradisional mengkodekan wilayah gambar ke dalam kode dalam kosakata yang terbatas. Pendekatan ini pasti menyebabkan hilangnya informasi, dan bahkan sulit bagi model besar untuk menghasilkan fitur detail seperti mata simetris secara akurat. Elemen kata yang berkesinambungan dapat menyimpan informasi yang lebih akurat dan meningkatkan kualitas rekonstruksi gambar secara signifikan.
Tim peneliti juga menginovasi rangkaian pembuatan gambar. Model autoregresif tradisional biasanya menghasilkan gambar dalam urutan tetap dari kiri ke kanan dan atas ke bawah. Para peneliti mencoba pendekatan sekuensial acak, yang memungkinkan model memprediksi banyak piksel di lokasi mana pun pada setiap langkah. Metode ini bekerja dengan baik dalam tugas-tugas yang memerlukan pemahaman yang baik tentang keseluruhan struktur gambar, dan mencapai keuntungan signifikan dalam uji benchmark GenEval yang mengukur kecocokan teks dan gambar yang dihasilkan.
Performa sebenarnya dari model Fluid menegaskan nilai penelitian. Setelah menskalakan hingga 10,5 miliar parameter, Fluid mengungguli model yang ada dalam beberapa tolok ukur penting. Perlu dicatat bahwa model Fluid kecil dengan hanya 369 juta parameter telah mencapai skor FID (7,23) model Parti dengan 20 miliar parameter pada kumpulan data MS-COCO.
Hasil penelitian ini menunjukkan bahwa model autoregresif seperti Fluid kemungkinan besar akan menjadi alternatif yang ampuh terhadap model difusi. Dibandingkan dengan model difusi yang memerlukan beberapa lintasan maju dan mundur, Fluida hanya memerlukan satu lintasan untuk menghasilkan gambar.
Penelitian ini membawa kemungkinan-kemungkinan baru dalam bidang pembuatan teks-ke-gambar, dan kemunculan model Fluid juga menandai munculnya model autoregresif dalam bidang pembuatan gambar. Di masa depan, kita dapat menantikan lebih banyak penerapan dan peningkatan berdasarkan model Fluid untuk lebih mendorong kemajuan teknologi pembuatan gambar kecerdasan buatan. Editor Downcodes akan terus memperhatikan perkembangan terkini di bidang ini dan menghadirkan konten yang lebih menarik bagi pembaca.