Universitas Peking, Laboratorium Kecerdasan Buatan Shanghai, dan Universitas Teknologi Nanyang bersama-sama mengembangkan sistem AI inovatif yang disebut DiffSensei yang dapat secara otomatis mengubah cerita tertulis menjadi gaya komik. Sistem ini menggunakan model difusi dan model bahasa skala besar untuk menangani elemen visual dan naratif dalam pembuatan komik, dan mencapai pembuatan komik dalam tiga langkah (membuat tata letak halaman, menggambar karakter, dan menambahkan teks dialog). Untuk memverifikasi fungsinya, tim peneliti juga membuat komik fiksi tentang pionir di bidang kecerdasan buatan. DiffSensei berkinerja baik dalam menjaga konsistensi tampilan karakter dan mengontrol tata letak halaman, menunjukkan potensi besar AI dalam pembuatan komik, namun juga menghadapi beberapa tantangan, seperti kesalahan yang mungkin terjadi ketika gambar referensi karakter tidak cukup jelas.
Proyek ini dilatih menggunakan kumpulan data yang disebut MangaZero, yang berisi lebih dari 43.000 halaman komik dan 427.000 panel individual dari 48 seri komik berbeda, yang masing-masing diberi penjelasan rinci. DiffSensei menggunakan model multi-modal dan teknologi LoRA untuk memastikan karakter komik mempertahankan tampilan yang konsisten di setiap panel. Terlepas dari beberapa tantangan, seperti kesalahan yang dapat terjadi ketika gambar referensi karakter tidak cukup jelas, dan karya seni yang dihasilkan mungkin tampak hambar jika tidak ada referensi karakter yang jelas, DiffSensei memberi seniman, penerbit, dan pencipta alat baru yang kuat yang dapat digunakan oleh para seniman, penerbit, dan pencipta. masa depan menjanjikan untuk menyederhanakan proses produksi komik.
Gambar: Wu dkk.
Gambar: Wu dkk.
Bagaimana DiffSensei bekerja
DiffSensei menggunakan model multi-modal dan teknologi LoRA untuk memastikan karakter dalam komik mempertahankan tampilan yang konsisten di setiap panel. Sistem mengimplementasikan pembuatan komik dalam tiga langkah: pertama membuat tata letak halaman, kemudian menggambar karakter, dan terakhir menambahkan teks dialog.
Untuk melatih DiffSensei, para peneliti membuat kumpulan data yang disebut MangaZero. Kumpulan data berisi lebih dari 43.000 halaman komik dan 427.000 panel individual dari 48 seri komik berbeda.Setiap panel diberi anotasi secara detail, mencatat posisi karakter dan posisi dialog, yang penting untuk kelancaran pengoperasian sistem.
Gambar: Wu dkk.
Potensi dan tantangan masa depan
Meskipun DiffSensei menunjukkan potensi besar, sistemnya masih menghadapi beberapa tantangan. Saat ini, sistem dapat membuat kesalahan ketika gambar referensi karakter tidak cukup jelas, dan terkadang karakter serupa digabungkan secara tidak sengaja. Selain itu, tanpa referensi karakter yang jelas, karya seni yang dihasilkan mungkin tampak hambar dan gagal mewakili gaya komik tertentu secara sempurna.
Para peneliti percaya bahwa DiffSensei dapat menyederhanakan proses produksi komik di masa depan. Teknologi ini memberi seniman, penerbit, dan pencipta alat baru yang memungkinkan mereka membuat komik yang dipersonalisasi dengan mudah sambil mempertahankan kontrol yang tepat atas karakter dan tata letak halaman.
Secara keseluruhan, kemunculan DiffSensei menandai bahwa AI telah mencapai kemajuan signifikan dalam bidang pembuatan komik, membawa kemungkinan-kemungkinan baru dalam pembuatan komik. Meskipun masih ada beberapa tantangan yang harus diatasi, potensi pengembangannya di masa depan sangat besar dan layak untuk dinantikan.