Sebuah tim peneliti dari National University of Singapore telah mengembangkan kerangka kerja pembuatan gambar baru yang disebut OminiControl, yang secara signifikan meningkatkan fleksibilitas dan efisiensi pembuatan gambar. Ini secara cerdik menggabungkan pengondisian gambar dan model transformator difusi (DiT) terlatih untuk mencapai kemampuan kontrol yang belum pernah terjadi sebelumnya, bahkan integrasi subjek yang kompleks dapat dicapai dengan mudah. Editor Downcodes akan memberi Anda pemahaman mendalam tentang keunikan OminiControl dan perubahan yang dibawanya pada bidang pembuatan gambar.
Sederhananya, selama Anda memberikan gambar material, Anda dapat menggunakan OminiControl untuk mengintegrasikan tema dalam gambar material ke dalam gambar yang dihasilkan. Misalnya, editor Downcodes mengunggah gambar materi di sebelah kiri dan memasukkan kata prompt "Pria chip ditempatkan di sebelah meja di ruang praktik dokter, dengan stetoskop diletakkan di atas meja." sebagai berikut:
Inti dari OminiControl terletak pada "mekanisme penggunaan kembali parameter". Mekanisme ini memungkinkan model DiT menangani kondisi gambar secara efektif dengan parameter tambahan yang lebih sedikit. Artinya, dibandingkan metode yang ada, OminiControl hanya memerlukan 0,1% hingga 0,1% lebih banyak parameter untuk mencapai fungsi yang canggih. Selain itu, ia mampu menangani berbagai tugas pengkondisian gambar secara seragam, seperti pembuatan berbasis subjek dan penerapan kondisi penyelarasan spasial, seperti tepian, peta kedalaman, dll. Fleksibilitas ini sangat berguna untuk tugas pembuatan berdasarkan topik.
Tim peneliti juga menekankan bahwa OminiControl mencapai kemampuan ini dengan melatih gambar yang dihasilkan, yang sangat penting untuk pembuatan berdasarkan topik. Setelah evaluasi ekstensif, OminiControl secara signifikan mengungguli model UNet dan model adaptasi DiT yang ada baik dalam tugas pembangkitan berdasarkan topik maupun tugas pembangkitan bersyarat yang selaras secara spasial. Hasil penelitian ini membawa kemungkinan-kemungkinan baru dalam bidang kreatif.
Untuk mendukung penelitian yang lebih luas, tim juga merilis kumpulan data pelatihan yang disebut Subjects200K, yang berisi lebih dari 200.000 gambar yang konsisten dengan identitas dan menyediakan jalur sintesis data yang efisien. Kumpulan data ini akan memberi para peneliti sumber daya berharga untuk membantu mereka mengeksplorasi lebih jauh tugas menghasilkan konsensus topik.
Peluncuran Omini tidak hanya meningkatkan efisiensi dan efek pembuatan gambar, namun juga memberikan lebih banyak kemungkinan untuk kreasi artistik.
Pengalaman online: https://huggingface.co/spaces/Yuanshi/OminiControl
github:https://github.com/Yuanshi9815/OminiControl
Makalah: https://arxiv.org/html/2411.15098v2
Kemunculan OminiControl menandai lompatan signifikan dalam teknologi pembuatan gambar. Mekanisme penggunaan kembali parameter yang efisien dan kemampuan kontrol yang kuat telah membuka jalur baru bagi kreasi artistik dan penelitian ilmiah. Di masa depan, dengan perkembangan teknologi yang berkelanjutan, saya yakin OminiControl akan memainkan peran penting di lebih banyak bidang dan memberi kita pengalaman menghasilkan gambar yang lebih menakjubkan.