Die Peking-Universität, das Shanghai Artificial Intelligence Laboratory und die Nanyang Technological University haben gemeinsam ein innovatives KI-System namens DiffSensei entwickelt, das geschriebene Geschichten automatisch in Comic-Stil umwandeln kann. Das System verwendet Diffusionsmodelle und groß angelegte Sprachmodelle, um visuelle und narrative Elemente bei der Comic-Erstellung zu verarbeiten, und erreicht die Comic-Erstellung in drei Schritten (Generieren des Seitenlayouts, Zeichnen von Charakteren und Hinzufügen von Dialogtext). Um die Funktionalität zu überprüfen, erstellte das Forschungsteam außerdem einen fiktiven Comic über einen Pionier auf dem Gebiet der künstlichen Intelligenz. DiffSensei schneidet gut ab, wenn es darum geht, die Konsistenz des Erscheinungsbilds der Charaktere aufrechtzuerhalten und das Seitenlayout zu steuern, was das große Potenzial der KI im Bereich der Comic-Erstellung demonstriert, aber auch mit einigen Herausforderungen konfrontiert ist, wie z. B. Fehlern, die auftreten können, wenn die Referenzbilder der Charaktere nicht klar genug sind.
Das Projekt wurde mithilfe eines Datensatzes namens MangaZero trainiert, der mehr als 43.000 Comicseiten und 427.000 einzelne Panels aus 48 verschiedenen Comicserien enthält, die jeweils sorgfältig kommentiert sind. DiffSensei verwendet multimodale Modelle und LoRA-Technologie, um sicherzustellen, dass Comicfiguren auf jedem Panel ein einheitliches Erscheinungsbild behalten. Trotz einiger Herausforderungen, wie z. B. Fehler, die auftreten können, wenn Bilder mit Charakterreferenzen nicht klar genug sind, und die daraus resultierenden Kunstwerke, die ohne klare Charakterreferenzen langweilig wirken können, stellt DiffSensei Künstlern, Verlegern und Schöpfern ein leistungsstarkes neues Tool zur Verfügung, das The Die Zukunft verspricht, den Comic-Produktionsprozess erheblich zu vereinfachen.
Bild: Wu et al.
Bild: Wu et al.
So funktioniert DiffSensei
DiffSensei verwendet multimodale Modelle und LoRA-Technologie, um sicherzustellen, dass die Charaktere in Comics auf jedem Panel ein einheitliches Erscheinungsbild behalten. Das System implementiert die Comic-Erstellung in drei Schritten: Zuerst wird das Seitenlayout erstellt, dann werden Charaktere gezeichnet und schließlich wird Dialogtext hinzugefügt.
Um DiffSensei zu trainieren, erstellten die Forscher einen Datensatz namens MangaZero. Der Datensatz enthält mehr als 43.000 Comic-Seiten und 427.000 einzelne Panels aus 48 verschiedenen Comic-Serien. Jedes Panel ist detailliert kommentiert und zeichnet die Positionen der Charaktere und Dialoge auf, was für den reibungslosen Betrieb des Systems wichtig ist.
Bild: Wu et al.
Zukünftige Potenziale und Herausforderungen
Obwohl DiffSensei großes Potenzial aufweist, steht das System noch vor einigen Herausforderungen. Derzeit kann das System Fehler machen, wenn das Referenzbild eines Zeichens nicht klar genug ist, und manchmal werden ähnliche Zeichen falsch zusammengeführt. Außerdem kann die resultierende Grafik ohne klare Charakterreferenzen langweilig wirken und einen bestimmten Comic-Stil nicht perfekt wiedergeben.
Die Forscher glauben, dass DiffSensei den Comic-Produktionsprozess in Zukunft erheblich vereinfachen kann. Die Technologie gibt Künstlern, Verlegern und Erstellern ein neues Tool an die Hand, mit dem sie ganz einfach personalisierte Comics erstellen und gleichzeitig die genaue Kontrolle über Charaktere und Seitenlayout behalten können.
Alles in allem ist das Aufkommen von DiffSensei ein Zeichen dafür, dass die KI im Bereich der Comic-Erstellung erhebliche Fortschritte gemacht hat und neue Möglichkeiten für die Comic-Erstellung eröffnet. Obwohl noch einige Herausforderungen zu bewältigen sind, ist das zukünftige Entwicklungspotenzial enorm und es lohnt sich, darauf zu blicken.