L'Université de Pékin, le Laboratoire d'intelligence artificielle de Shanghai et l'Université technologique de Nanyang ont développé conjointement un système d'IA innovant appelé DiffSensei, capable de convertir automatiquement des histoires écrites en bande dessinée. Le système utilise des modèles de diffusion et des modèles de langage à grande échelle pour gérer les éléments visuels et narratifs dans la création de bandes dessinées, et réalise la création de bandes dessinées en trois étapes (génération de mise en page, dessin de personnages et ajout de texte de dialogue). Pour vérifier sa fonctionnalité, l’équipe de recherche a également créé une bande dessinée fictive sur un pionnier dans le domaine de l’intelligence artificielle. DiffSensei réussit bien à maintenir la cohérence de l'apparence des personnages et à contrôler la mise en page, démontrant le grand potentiel de l'IA dans la création de bandes dessinées, mais il est également confronté à certains défis, tels que des erreurs qui peuvent survenir lorsque les images de référence des personnages ne sont pas suffisamment claires.
Le projet a été formé à l'aide d'un ensemble de données appelé MangaZero, qui contient plus de 43 000 pages de bandes dessinées et 427 000 panneaux individuels de 48 séries de bandes dessinées différentes, chacune étant annotée en détail. DiffSensei utilise des modèles multimodaux et la technologie LoRA pour garantir que les personnages de bandes dessinées conservent une apparence cohérente sur chaque panneau. Malgré certains défis, tels que les erreurs qui peuvent survenir lorsque les images de référence aux personnages ne sont pas assez claires et les illustrations qui en résultent qui peuvent paraître fades en l'absence de références claires aux personnages, DiffSensei fournit aux artistes, aux éditeurs et aux créateurs un nouvel outil puissant qui l’avenir promet de simplifier considérablement le processus de production de bandes dessinées.
Image : Wu et coll.
Image : Wu et coll.
Comment fonctionne DiffSensei
DiffSensei utilise des modèles multimodaux et la technologie LoRA pour garantir que les personnages des bandes dessinées conservent une apparence cohérente sur chaque panneau. Le système met en œuvre la création de bandes dessinées en trois étapes : d'abord générer une mise en page, puis dessiner des personnages et enfin ajouter du texte de dialogue.
Pour former DiffSensei, les chercheurs ont construit un ensemble de données appelé MangaZero. L'ensemble de données contient plus de 43 000 pages de bandes dessinées et 427 000 panneaux individuels de 48 séries de bandes dessinées différentes. Chaque panneau est annoté en détail, enregistrant les positions des personnages et les positions des dialogues, ce qui est essentiel au bon fonctionnement du système.
Image : Wu et coll.
Potentiel et défis futurs
Bien que DiffSensei présente un grand potentiel, le système est encore confronté à certains défis. Actuellement, le système peut commettre des erreurs lorsque l'image de référence d'un personnage n'est pas assez claire, et parfois des caractères similaires sont fusionnés par erreur. De plus, sans références claires aux personnages, le dessin résultant peut paraître fade et ne pas représenter parfaitement un style de bande dessinée spécifique.
Les chercheurs pensent que DiffSensei pourra grandement simplifier le processus de production de bandes dessinées à l’avenir. La technologie offre aux artistes, éditeurs et créateurs un nouvel outil qui leur permet de créer facilement des bandes dessinées personnalisées tout en conservant un contrôle précis sur les personnages et la mise en page.
Dans l’ensemble, l’émergence de DiffSensei marque que l’IA a fait des progrès significatifs dans le domaine de la création de bandes dessinées, apportant de nouvelles possibilités à la création de bandes dessinées. Même s’il reste encore quelques défis à relever, son potentiel de développement futur est énorme et mérite d’être attendu.