Model generatif multimodal menjadi fokus di bidang kecerdasan buatan, dengan tujuan menggabungkan data visual dan tekstual untuk menciptakan sistem multitugas yang kuat. Namun, kemajuan model autoregresif (AR) di bidang pembuatan gambar tertinggal dibandingkan model difusi. Artikel ini akan memperkenalkan Lumina-mGPT, model AR canggih yang dikembangkan oleh para peneliti dari Shanghai AI Laboratory dan Chinese University of Hong Kong. Hal ini bertujuan untuk mengatasi keterbatasan model AR yang ada dalam hal kualitas gambar, fleksibilitas resolusi, dan multi-fitur. penugasan. Sebuah terobosan dalam kekuatan pemrosesan.
Model generatif multimodal memimpin tren terkini dalam kecerdasan buatan, dengan fokus pada penggabungan data visual dan tekstual untuk menciptakan sistem yang dapat menyelesaikan berbagai tugas. Tugas-tugas ini berkisar dari menghasilkan gambar dengan detail tinggi berdasarkan deskripsi teks hingga pemahaman dan penalaran di seluruh jenis data, mendorong lahirnya sistem AI yang lebih interaktif dan cerdas yang mengintegrasikan visi dan bahasa dengan lancar.
Di bidang ini, tantangan utamanya adalah mengembangkan model autoregresif (AR) yang mampu menghasilkan gambar realistis berdasarkan deskripsi tekstual. Meskipun model difusi telah mengalami kemajuan yang signifikan dalam bidang ini, performa model autoregresif masih tertinggal, terutama dalam hal kualitas gambar, fleksibilitas resolusi, dan kemampuan menangani berbagai tugas visual. Kesenjangan ini mendorong para peneliti untuk mencari cara inovatif untuk meningkatkan kemampuan model AR.
Saat ini, bidang pembuatan teks-ke-gambar sebagian besar ditempati oleh model difusi, yang unggul dalam menghasilkan gambar berkualitas tinggi dan menarik secara visual. Namun, model AR seperti LlamaGen dan Parti gagal dalam aspek ini. Mereka sering kali mengandalkan arsitektur pengkodean-dekode yang kompleks dan seringkali hanya dapat menghasilkan gambar dengan resolusi tetap. Keterbatasan ini sangat mengurangi fleksibilitas dan efektivitasnya dalam menghasilkan keluaran yang beragam dan beresolusi tinggi.
Untuk mengatasi hambatan ini, para peneliti dari Shanghai AI Laboratory dan Chinese University of Hong Kong meluncurkan Lumina-mGPT, model AR canggih yang dirancang untuk mengatasi keterbatasan ini. Lumina-mGPT didasarkan pada arsitektur transformator khusus decoder dan mengadopsi metode pra-pelatihan generatif multi-modal (mGPT). Model ini mengintegrasikan tugas visi dan bahasa ke dalam kerangka terpadu, yang bertujuan untuk mencapai tingkat pembuatan gambar realistis yang sama dengan model difusi, dengan tetap menjaga kesederhanaan dan skalabilitas metode AR.
Lumina-mGPT mengambil pendekatan menyeluruh untuk meningkatkan kemampuan pembuatan gambar, dengan strategi penyempurnaan terawasi progresif (FP-SFT) yang fleksibel sebagai intinya. Strategi ini secara bertahap melatih model untuk menghasilkan gambar beresolusi tinggi dari resolusi rendah, pertama-tama mempelajari konsep visual umum pada resolusi lebih rendah, lalu secara bertahap memperkenalkan detail resolusi tinggi yang lebih kompleks. Selain itu, model ini memperkenalkan sistem representasi gambar inovatif yang tidak ambigu yang menghilangkan ambiguitas yang terkait dengan resolusi gambar variabel dan rasio aspek dengan memperkenalkan indikator tinggi dan lebar tertentu serta penanda ujung garis.
Dari segi performa, Lumina-mGPT secara signifikan melampaui model AR sebelumnya dalam menghasilkan gambar realistis. Ia mampu menghasilkan gambar resolusi tinggi 1024×1024 piksel, kaya akan detail, dan sangat konsisten dengan petunjuk teks yang diberikan. Para peneliti melaporkan bahwa Lumina-mGPT hanya memerlukan 10 juta pasangan gambar-teks untuk pelatihan, jauh lebih sedikit dibandingkan 5 juta pasangan gambar-teks yang dibutuhkan oleh LlamaGen. Meskipun kumpulan datanya lebih kecil, Lumina-mGPT mengungguli pesaingnya dalam kualitas gambar dan konsistensi visual. Selain itu, model ini mendukung berbagai tugas seperti menjawab pertanyaan secara visual, anotasi padat, dan pembuatan gambar yang dapat dikontrol, menunjukkan fleksibilitasnya sebagai generalis multimodal.
Arsitekturnya yang fleksibel dan terukur semakin meningkatkan kemampuan Lumina-mGPT untuk menghasilkan gambar yang beragam dan berkualitas tinggi. Model ini menggunakan teknik decoding tingkat lanjut seperti panduan bebas pengklasifikasi (CFG), yang berperan penting dalam meningkatkan kualitas gambar yang dihasilkan. Misalnya, dengan menyesuaikan parameter seperti suhu dan nilai top-k, Lumina-mGPT dapat mengontrol detail dan keragaman gambar yang dihasilkan, membantu mengurangi artefak visual dan meningkatkan keindahan secara keseluruhan.
Lumina-mGPT menandai kemajuan signifikan dalam bidang pembuatan gambar autoregresif. Model ini, yang dikembangkan oleh para peneliti dari Shanghai AI Laboratory dan Chinese University of Hong Kong, berhasil menjembatani model AR dan model difusi, sehingga menyediakan alat baru yang ampuh untuk menghasilkan gambar realistis dari teks. Metode inovatifnya dalam pra-pelatihan multi-modal dan penyesuaian yang fleksibel menunjukkan potensi kemampuan transformatif model AR dan menandai lahirnya sistem AI yang lebih kompleks dan serbaguna di masa depan.
Alamat proyek: https://top.aibase.com/tool/lumina-mgpt
Alamat uji coba online: https://106.14.2.150:10020/
Secara keseluruhan, kemunculan Lumina-mGPT telah membawa kemungkinan baru dalam bidang pembuatan gambar autoregresif, dan metode pelatihannya yang efisien serta efek pembuatannya yang luar biasa patut mendapat perhatian. Di masa depan, kita dapat menantikan lebih banyak aplikasi inovatif berdasarkan teknologi serupa untuk mendorong pengembangan berkelanjutan di bidang kecerdasan buatan.