Dalam beberapa tahun terakhir, teknologi lukisan AI telah berkembang pesat, namun masih ada beberapa pemandangan yang tampak sederhana namun sulit untuk ditampilkan dengan sempurna. Sebuah tim peneliti dari Universitas Shanghai Jiao Tong menemukan bahwa AI berulang kali gagal menghasilkan adegan "Es Coke dalam cangkir teh", yang memicu perhatian akademis pada masalah ketidakselarasan teks-gambar. Tim menyelidiki "masalah cangkir teh" ini dan mengusulkan metode baru yang disebut Mixture of Concept Experts (MoCE), yang secara efektif memecahkan masalah ketidakcocokan konsep tersembunyi dalam pembuatan gambar AI.
Di bidang kecerdasan buatan, kemampuan pelukis AI terus melakukan terobosan dan peningkatan. Namun, bahkan model pembuatan gambar AI yang paling canggih pun dapat kesulitan dengan tugas-tugas tertentu yang tampaknya sederhana. Baru-baru ini, Zhao Juntu, seorang kandidat doktor di Universitas Shanghai Jiao Tong, dan timnya menemukan dalam penelitian mereka bahwa AI menunjukkan kesulitan yang tidak terduga saat membuat adegan "es cola dalam cangkir teh".
Fenomena ini menarik perhatian kalangan akademis dan disebut dengan text-image misalignment. Pada bulan Oktober 2023, ketika model pembuatan gambar AI baru saja muncul, Zhao Juntu dan timnya mencobanya dan menemukan bahwa ketika pelukis AI membuat adegan ini, mereka sering menggambar gelas transparan berisi es Coke, bukan cangkir teh. Bahkan ketika dicoba pada Juli 2024 dengan menggunakan model tercanggih, hasilnya masih kurang memuaskan.
Untuk mengeksplorasi masalah ini secara mendalam, kelompok peneliti Profesor Wang Dequan dari Universitas Shanghai Jiao Tong mengklasifikasikan masalah ini sebagai masalah yang mengandung variabel tersembunyi dalam makalah mendatang "Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models" Misalignment masalah (Ketidakselarasan Konsep Laten, disebut sebagai LC-Mis). Mereka merancang sistem berdasarkan model bahasa besar (LLM) untuk menggunakan pemikiran manusia yang terdapat dalam LLM untuk membantu dengan cepat mengumpulkan pasangan konsep dengan masalah serupa.
Tim peneliti mengusulkan metode yang disebut Mixture of Concept Experts (MoCE), yang mengintegrasikan aturan pengecatan sekuensial ke dalam proses pengambilan sampel multi-langkah model difusi, dan berhasil menemukan kembali cangkir teh yang hilang.
Ini membagi seluruh proses pengambilan sampel menjadi dua tahap: tahap pertama hanya memberikan konsep yang mudah diabaikan, dan tahap kedua menggunakan petunjuk teks lengkap. Dengan pendekatan ini, Kemenkeu dapat mengontrol keselarasan antara teks dan gambar dengan lebih tepat saat menghasilkan gambar.
Metode MoCE secara signifikan mengurangi proporsi pasangan konsep LC-Mis level 5, dan bahkan melampaui Dall・E3 (versi Oktober 2023) yang memerlukan biaya anotasi data dalam jumlah besar hingga batas tertentu.
Selain itu, tim peneliti juga menemukan bahwa indikator evaluasi otomatis yang ada memiliki kelemahan yang jelas ketika menghadapi masalah baru seperti ini. Misalnya, beberapa indikator evaluasi memberikan skor lebih rendah pada es Coke dalam cangkir teh, namun memberikan skor lebih tinggi pada es Coke dalam gelas bening. Hal ini menunjukkan bahwa alat untuk mengevaluasi kinerja AI pun dapat memiliki bias dan keterbatasan.
Para peneliti berencana untuk mengeksplorasi skenario LC-Mis yang lebih kompleks di masa depan dan mengembangkan algoritma pencarian yang dapat dipelajari untuk mengurangi jumlah iterasi. Mereka juga berencana untuk memperluas jenis model, versi model, dan jenis sampel yang digunakan dalam kumpulan data, dan terus melakukan iterasi pada algoritme pengumpulan kumpulan data untuk menyempurnakan dan memperluas kumpulan data.
Penelitian ini tidak hanya memberikan perspektif baru untuk memahami keterbatasan AI dalam pembuatan gambar, namun juga memberikan ide dan metode baru untuk meningkatkan kemampuan pembuatan gambar AI. Seiring dengan kemajuan teknologi, kami berharap AI dapat membuat terobosan yang lebih besar dalam memahami dan mereproduksi kreativitas manusia.
Alamat proyek: https://lcmis.github.io/
Makalah: https://arxiv.org/pdf/2408.00230
Studi tentang "masalah cangkir teh" dalam pembuatan gambar AI ini mengungkapkan keterbatasan model AI dalam menangani konsep halus dan juga memberikan referensi berharga untuk arah pengembangan teknologi AI di masa depan. Metode MoCE yang diusulkan oleh tim peneliti dan refleksi terhadap indikator evaluasi yang ada akan mendorong teknologi pembuatan gambar AI ke tingkat berikutnya.