北京大学、上海人工知能研究所、南洋理工大学は、書かれたストーリーを漫画スタイルに自動的に変換できる DiffSensei と呼ばれる革新的な AI システムを共同開発しました。同システムは、拡散モデルと大規模言語モデルを活用し、コミック制作におけるビジュアル要素や物語要素を扱い、ページレイアウトの生成、キャラクターの描画、セリフテキストの追加の3ステップでコミック制作を実現する。その機能を検証するために、研究チームは人工知能分野の先駆者についての架空の漫画も作成しました。 DiffSensei は、キャラクターの外観の一貫性の維持とページ レイアウトの制御に優れたパフォーマンスを発揮し、コミック作成における AI の大きな可能性を示していますが、キャラクターの参照画像が十分に鮮明でない場合に発生する可能性のあるエラーなど、いくつかの課題にも直面しています。
このプロジェクトは、mangaZero と呼ばれるデータセットを使用してトレーニングされました。このデータセットには、43,000 を超える漫画ページと、48 の異なる漫画シリーズからの 427,000 の個々のパネルが含まれており、それぞれに詳細な注釈が付けられています。 DiffSensei はマルチモーダル モデルと LoRA テクノロジーを使用して、漫画のキャラクターがすべてのパネルで一貫した外観を維持できるようにします。キャラクター参照画像が十分に鮮明でない場合に発生する可能性のあるエラーや、明確なキャラクター参照がない場合に結果的に当たり障りのないアートに見える可能性があるなどのいくつかの課題にもかかわらず、DiffSensei はアーティスト、出版社、クリエイターに強力な新しいツールを提供します。将来的には、コミック制作プロセスが大幅に簡素化されることが期待されています。
画像: ウーら
画像: ウーら
DiffSensei の仕組み
DiffSensei はマルチモーダル モデルと LoRA テクノロジーを使用して、コミック内のキャラクターがすべてのパネルで一貫した外観を維持できるようにします。ページレイアウトの生成、キャラクターの描画、セリフの追加という3つのステップでコミック制作を実現します。
DiffSensei を訓練するために、研究者たちは、mangaZero と呼ばれるデータセットを構築しました。データ セットには 43,000 ページを超える漫画と 48 種類の漫画シリーズの 427,000 個の個々のパネルが含まれており、各パネルには詳細な注釈が付けられており、システムのスムーズな動作に不可欠な文字の位置と会話の位置が記録されています。
画像: ウーら
将来性と課題
DiffSensei は大きな可能性を示していますが、このシステムはまだいくつかの課題に直面しています。現在、キャラクターの参照画像が十分に鮮明でない場合、システムはエラーを起こす可能性があり、類似したキャラクターが誤ってマージされる場合があります。さらに、明確なキャラクターの参照がなければ、結果として得られるアートは当たり障りのないものに見え、特定のコミック スタイルを完全に表現できない可能性があります。
研究者らは、DiffSensei によって将来的にコミック制作プロセスが大幅に簡素化される可能性があると考えています。このテクノロジーは、アーティスト、出版社、クリエイターに、キャラクターやページ レイアウトを正確に制御しながら、パーソナライズされたコミックを簡単に作成できる新しいツールを提供します。
全体として、DiffSensei の登場は、AI がコミック制作の分野で大きな進歩を遂げ、コミック制作に新たな可能性をもたらしたことを示しています。まだまだ課題はありますが、今後の発展の可能性は大きく、大いに期待できます。