Artikel ini membahas kemajuan terkini dalam teknologi transfer gaya gambar berbasis teks dan tantangan yang dihadapinya. Dalam beberapa tahun terakhir, model generatif teks-ke-gambar telah mencapai kemajuan yang signifikan, memungkinkan transfer gaya yang lebih halus, namun masalah seperti gaya yang berlebihan, perataan teks yang tidak akurat, dan artefak pembuatan masih ada. Untuk mengatasi masalah ini, para peneliti mengusulkan tiga strategi pelengkap, termasuk fusi lintas-modal berbasis AdaIN, panduan bebas pengklasifikasi berbasis gaya (SCFG), dan menggunakan model guru untuk stabilisasi tata letak, dan memverifikasi keefektifannya melalui eksperimen, menunjukkan bahwa Ini secara signifikan meningkatkan kualitas gambar yang dihasilkan dan konsistensinya dengan isyarat tekstual.
Transfer gaya berbasis teks adalah tugas penting dalam bidang sintesis gambar, yang bertujuan untuk memadukan gaya gambar referensi dengan konten yang dijelaskan oleh perintah teks. Baru-baru ini, kemajuan signifikan telah dicapai dalam model generatif teks-ke-gambar, memungkinkan transfer gaya yang lebih halus sambil mempertahankan fidelitas konten yang tinggi. Teknologi ini memiliki nilai praktis yang sangat besar di berbagai bidang seperti lukisan digital, periklanan, dan desain game.
Namun teknik transfer gaya yang ada masih memiliki beberapa kekurangan. Tantangan utamanya antara lain:
Overfitting gaya: Model yang ada cenderung meniru semua elemen gambar referensi, menyebabkan gambar yang dihasilkan terlalu dekat dengan karakteristik gambar gaya referensi, sehingga membatasi fleksibilitas estetika dan kemampuan beradaptasi gambar yang dihasilkan.
Perataan teks tidak akurat: Model mungkin memprioritaskan warna atau pola dominan dari gambar referensi, meskipun elemen ini bertentangan dengan petunjuk dalam perintah teks.
Menghasilkan artefak: Transfer gaya dapat menimbulkan artefak yang tidak diinginkan, seperti pola berulang (seperti efek kotak-kotak) yang mengganggu tata letak gambar secara keseluruhan.
Untuk mengatasi masalah ini, para peneliti mengusulkan tiga strategi yang saling melengkapi:
Penggabungan lintas modal berbasis AdaIN: Memanfaatkan mekanisme Adaptive Instance Normalization (AdaIN) untuk mengintegrasikan fitur gambar gaya ke dalam fitur teks, lalu menggabungkannya dengan fitur gambar. Perpaduan adaptif ini menciptakan ciri panduan yang lebih kohesif, menyelaraskan fitur gaya secara lebih harmonis dengan instruksi berbasis teks. AdaIN secara efektif mengintegrasikan gaya ke dalam konten dengan menyesuaikan karakteristik konten untuk mencerminkan statistik gaya, dengan tetap mempertahankan konsistensi konten dan deskripsi teks.
Panduan bebas pengklasifikasi berbasis gaya (SCFG): Mengembangkan metode panduan gaya yang berfokus pada gaya target dan mengurangi fitur gaya yang tidak diperlukan. Dengan menggunakan model generatif yang dikontrol tata letak (misalnya ControlNet), gambar "negatif" dihasilkan tanpa gaya target. Citra negatif ini bertindak seperti isyarat "kosong" dalam model difusi, yang memungkinkan panduan untuk fokus sepenuhnya pada elemen gaya target.
Stabilisasi tata letak menggunakan model guru: Memperkenalkan model guru pada tahap awal pembuatan. Model guru didasarkan pada model teks-ke-gambar asli, melakukan pembangkitan denoising dengan isyarat teks yang sama secara bersamaan dengan model gaya, dan membagikan peta perhatian spasialnya pada setiap langkah waktu. Metode ini memastikan distribusi spasial yang stabil dan konsisten, sehingga secara efektif mengurangi masalah seperti artefak kotak-kotak. Selain itu, ini mencapai tata letak spasial yang konsisten dari prompt teks yang sama di seluruh gambar referensi dengan gaya berbeda.
Para peneliti memverifikasi keefektifan metode ini melalui eksperimen ekstensif. Hasilnya menunjukkan bahwa metode ini dapat meningkatkan kualitas transfer gaya gambar yang dihasilkan secara signifikan dan menjaga konsistensi dengan isyarat teks. Yang lebih penting lagi, metode ini dapat diintegrasikan ke dalam kerangka transfer gaya yang sudah ada tanpa perlu melakukan penyesuaian.
Para peneliti menemukan melalui eksperimen bahwa ketidakstabilan dalam mekanisme perhatian silang dapat menyebabkan munculnya artefak. Mekanisme perhatian mandiri memainkan peran penting dalam menjaga tata letak dan struktur spasial gambar dengan menangkap hubungan spasial tingkat tinggi untuk menstabilkan tata letak dasar selama pembuatan. Dengan secara selektif mengganti peta perhatian diri tertentu dalam gambar yang diberi gaya, hubungan spasial fitur-fitur utama dalam gambar dapat dipertahankan, memastikan bahwa tata letak inti tetap konsisten selama proses denoising.
Selain itu, panduan bebas pengklasifikasi berbasis gaya (SCFG) secara efektif memecahkan masalah ambiguitas gaya dengan secara selektif menekankan elemen gaya yang diinginkan sambil menyaring fitur yang tidak relevan atau bertentangan. Pendekatan ini mengurangi risiko overfitting komponen gaya yang tidak relevan dengan menggunakan model yang dikontrol tata letak untuk menghasilkan gambar gaya negatif, sehingga model dapat fokus dalam mentransmisikan komponen gaya yang diinginkan.
Para peneliti juga melakukan eksperimen ablasi untuk mengevaluasi dampak masing-masing komponen. Hasilnya menunjukkan bahwa fusi lintas-modal berbasis AdaIN dan model guru dapat meningkatkan akurasi penyelarasan teks secara signifikan, dan keduanya memiliki efek yang saling melengkapi.
Singkatnya, metode yang diusulkan dalam penelitian ini dapat secara efektif meringankan masalah overfitting gaya dan ketidakstabilan tata letak yang ada pada teknik transfer gaya berbasis teks yang ada, sehingga menghasilkan kualitas gambar yang lebih tinggi dan memberikan dukungan untuk tugas sintesis teks-ke-gambar solusi ampuh.
Alamat makalah: https://arxiv.org/pdf/2412.08503
Penelitian ini memberikan solusi efektif terhadap tantangan utama dalam transfer gaya gambar berbasis teks, membawa terobosan baru di bidang pembuatan gambar berkualitas tinggi dan sintesis teks-ke-gambar. Hasil penelitian mempunyai prospek penerapan yang luas dan layak untuk dikaji dan dieksplorasi lebih lanjut.