DiffSensei：自動將書面故事轉換為漫畫風格的人工智慧系統

作者：Eve Cole 更新時間：2025-01-19 19:00:02

北京大學、上海人工智慧實驗室和南洋理工大學聯合研發出一種名為DiffSensei的創新AI系統，能夠自動將書面故事轉換成漫畫風格。該系統利用擴散模型和大型語言模型，處理漫畫創作中的視覺和敘事元素，並透過三個步驟（生成頁面佈局、繪製角色、添加對話文本）實現漫畫創作。為了驗證其功能，研究團隊也創作了一部關於人工智慧領域先驅的虛構漫畫。 DiffSensei在角色外觀保持一致性和頁面佈局控制方面表現出色，展現了AI在漫畫創作領域的巨大潛力，但同時也面臨一些挑戰，例如角色參考圖像不夠清晰時可能會出現錯誤。

該專案利用名為MangaZero的資料集進行訓練，該資料集包含48個不同漫畫系列的43000多頁漫畫和427000個單獨面板，每個面板都進行了詳細標註。 DiffSensei使用多模態模型和LoRA技術，確保漫畫中角色在每個面板上保持一致的外觀。儘管存在一些挑戰，例如角色參考圖像不夠清晰時可能出現錯誤，以及在缺乏明確角色參考時生成的藝術作品可能顯得平淡，但DiffSensei仍為藝術家、出版商和創作者提供了一個強大的新工具，未來可望大幅簡化漫畫製作過程。

Image: Wu et al.

DiffSensei的工作原理

DiffSensei使用多模態模型和LoRA技術，確保漫畫中的角色在每個面板上保持一致的外觀。該系統透過三步驟實現漫畫創作:首先是生成頁面佈局，接著繪製角色，最後添加對話文本。

為了訓練DiffSensei，研究人員建構了一個名為MangaZero的資料集。該資料集包含了來自48個不同漫畫系列的43，000多頁漫畫和427，000個單獨面板，每個面板都進行了詳細標註，記錄了角色位置和對話位置，這對於系統的順利運行至關重要。

Image: Wu et al.

未來的潛力與挑戰

儘管DiffSensei展現了巨大的潛力，但該系統仍面臨一些挑戰。目前，當角色的參考影像不夠清晰時，系統可能會出現錯誤，有時相似人物會被誤融合。而且，若沒有明確的角色參考，生成的藝術作品可能顯得平淡，無法完美呈現特定漫畫風格。

研究人員相信，DiffSensei能夠在未來大幅簡化漫畫製作過程。該技術為藝術家、出版商和創作者提供了一個新的工具，使他們能夠輕鬆製作個人化的漫畫，同時保持對角色和頁面佈局的精確控制。

總而言之，DiffSensei的出現標誌著AI在漫畫創作領域取得了顯著進展，為漫畫創作帶來了新的可能性。雖然仍存在一些挑戰需要克服，但其未來發展潛力巨大，值得期待。