北京大學、上海人工智慧實驗室和南洋理工大學聯合研發出一種名為DiffSensei的創新AI系統,能夠自動將書面故事轉換成漫畫風格。該系統利用擴散模型和大型語言模型,處理漫畫創作中的視覺和敘事元素,並透過三個步驟(生成頁面佈局、繪製角色、添加對話文本)實現漫畫創作。為了驗證其功能,研究團隊也創作了一部關於人工智慧領域先驅的虛構漫畫。 DiffSensei在角色外觀保持一致性和頁面佈局控制方面表現出色,展現了AI在漫畫創作領域的巨大潛力,但同時也面臨一些挑戰,例如角色參考圖像不夠清晰時可能會出現錯誤。
該專案利用名為MangaZero的資料集進行訓練,該資料集包含48個不同漫畫系列的43000多頁漫畫和427000個單獨面板,每個面板都進行了詳細標註。 DiffSensei使用多模態模型和LoRA技術,確保漫畫中角色在每個面板上保持一致的外觀。儘管存在一些挑戰,例如角色參考圖像不夠清晰時可能出現錯誤,以及在缺乏明確角色參考時生成的藝術作品可能顯得平淡,但DiffSensei仍為藝術家、出版商和創作者提供了一個強大的新工具,未來可望大幅簡化漫畫製作過程。
Image: Wu et al.
Image: Wu et al.
DiffSensei的工作原理
DiffSensei使用多模態模型和LoRA技術,確保漫畫中的角色在每個面板上保持一致的外觀。該系統透過三步驟實現漫畫創作:首先是生成頁面佈局,接著繪製角色,最後添加對話文本。
為了訓練DiffSensei,研究人員建構了一個名為MangaZero的資料集。該資料集包含了來自48個不同漫畫系列的43,000多頁漫畫和427,000個單獨面板,每個面板都進行了詳細標註,記錄了角色位置和對話位置,這對於系統的順利運行至關重要。
Image: Wu et al.
未來的潛力與挑戰
儘管DiffSensei展現了巨大的潛力,但該系統仍面臨一些挑戰。目前,當角色的參考影像不夠清晰時,系統可能會出現錯誤,有時相似人物會被誤融合。而且,若沒有明確的角色參考,生成的藝術作品可能顯得平淡,無法完美呈現特定漫畫風格。
研究人員相信,DiffSensei能夠在未來大幅簡化漫畫製作過程。該技術為藝術家、出版商和創作者提供了一個新的工具,使他們能夠輕鬆製作個人化的漫畫,同時保持對角色和頁面佈局的精確控制。
總而言之,DiffSensei的出現標誌著AI在漫畫創作領域取得了顯著進展,為漫畫創作帶來了新的可能性。雖然仍存在一些挑戰需要克服,但其未來發展潛力巨大,值得期待。