北京大学、上海人工智能实验室和南洋理工大学联合研发出一种名为DiffSensei的创新AI系统,能够自动将书面故事转换成漫画风格。该系统利用扩散模型和大型语言模型,处理漫画创作中的视觉和叙事元素,并通过三步(生成页面布局、绘制角色、添加对话文本)实现漫画创作。为了验证其功能,研究团队还创作了一部关于人工智能领域先驱的虚构漫画。DiffSensei在角色外观保持一致性和页面布局控制方面表现出色,展现了AI在漫画创作领域的巨大潜力,但同时也面临一些挑战,例如角色参考图像不够清晰时可能会出现错误。
该项目利用名为MangaZero的数据集进行训练,该数据集包含48个不同漫画系列的43000多页漫画和427000个单独面板,每个面板都进行了详细标注。DiffSensei使用多模态模型和LoRA技术,确保漫画中角色在每个面板上保持一致的外观。尽管存在一些挑战,例如角色参考图像不够清晰时可能出现错误,以及在缺乏明确角色参考时生成的艺术作品可能显得平淡,但DiffSensei仍为艺术家、出版商和创作者提供了一个强大的新工具,未来有望极大地简化漫画制作过程。
Image: Wu et al.
Image: Wu et al.
DiffSensei的工作原理
DiffSensei使用多模态模型和LoRA技术,确保漫画中的角色在每个面板上保持一致的外观。该系统通过三步实现漫画创作:首先是生成页面布局,接着绘制角色,最后添加对话文本。
为了训练DiffSensei,研究人员构建了一个名为MangaZero的数据集。该数据集包含了来自48个不同漫画系列的43,000多页漫画和427,000个单独面板,每个面板都进行了详细标注,记录了角色位置和对话位置,这对于系统的顺利运行至关重要。
Image: Wu et al.
未来的潜力与挑战
尽管DiffSensei展示了巨大的潜力,但该系统仍然面临一些挑战。当前,当角色的参考图像不够清晰时,系统可能会出现错误,有时相似人物会被误融合。而且,若没有明确的角色参考,生成的艺术作品可能显得平淡,无法完美呈现特定漫画风格。
研究人员相信,DiffSensei能够在未来极大地简化漫画制作过程。该技术为艺术家、出版商和创作者提供了一个新的工具,使他们能够轻松制作个性化的漫画,同时保持对角色和页面布局的精确控制。
总而言之,DiffSensei的出现标志着AI在漫画创作领域取得了显著进展,为漫画创作带来了新的可能性。虽然仍存在一些挑战需要克服,但其未来发展潜力巨大,值得期待。