Пекинский университет, Шанхайская лаборатория искусственного интеллекта и Наньянский технологический университет совместно разработали инновационную систему искусственного интеллекта под названием DiffSensei, которая может автоматически преобразовывать написанные истории в стиль комиксов. Система использует модели распространения и крупномасштабные языковые модели для обработки визуальных и повествовательных элементов при создании комиксов и обеспечивает создание комиксов в три этапа (создание макета страницы, рисование персонажей и добавление текста диалога). Чтобы проверить его функциональность, исследовательская группа также создала вымышленный комикс о пионере в области искусственного интеллекта. DiffSensei хорошо справляется с поддержанием единообразия внешнего вида персонажей и управлением макетом страницы, демонстрируя большой потенциал ИИ в создании комиксов, но он также сталкивается с некоторыми проблемами, такими как ошибки, которые могут возникнуть, когда эталонные изображения персонажей недостаточно четкие.
Проект обучался с использованием набора данных под названием MangaZero, который содержит более 43 000 страниц комиксов и 427 000 отдельных панелей из 48 различных серий комиксов, каждая из которых подробно аннотирована. DiffSensei использует мультимодальные модели и технологию LoRA, чтобы гарантировать, что персонажи комиксов сохраняют единообразный внешний вид на каждой панели. Несмотря на некоторые проблемы, такие как ошибки, которые могут возникнуть, когда изображения персонажей недостаточно четкие, а также результирующая графика, которая может выглядеть скучной из-за отсутствия четких ссылок на персонажей, DiffSensei предоставляет художникам, издателям и создателям мощный новый инструмент, который будущее обещает значительно упростить процесс производства комиксов.
Изображение: Ву и др.
Изображение: Ву и др.
Как работает ДиффСенсей
DiffSensei использует мультимодальные модели и технологию LoRA, чтобы гарантировать, что персонажи комиксов сохраняют единообразный внешний вид на каждой панели. Система реализует создание комиксов в три этапа: сначала создается макет страницы, затем рисуются персонажи и, наконец, добавляется текст диалога.
Чтобы обучить DiffSensei, исследователи создали набор данных под названием MangaZero. Набор данных содержит более 43 000 страниц комиксов и 427 000 отдельных панелей из 48 различных серий комиксов. Каждая панель подробно аннотирована, записывая позиции персонажей и позиции диалогов, что важно для бесперебойной работы системы.
Изображение: Ву и др.
Будущий потенциал и проблемы
Хотя DiffSensei демонстрирует большой потенциал, система все еще сталкивается с некоторыми проблемами. В настоящее время система может допускать ошибки, когда эталонное изображение персонажа недостаточно четкое, а иногда похожие символы ошибочно объединяются. Более того, без четких отсылок к персонажам полученное изображение может показаться скучным и не в состоянии идеально передать определенный стиль комиксов.
Исследователи полагают, что DiffSensei может значительно упростить процесс производства комиксов в будущем. Эта технология дает художникам, издателям и создателям новый инструмент, который позволяет им легко создавать персонализированные комиксы, сохраняя при этом точный контроль над персонажами и макетом страницы.
В целом, появление DiffSensei означает, что ИИ добился значительного прогресса в области создания комиксов, открывая новые возможности для создания комиксов. Хотя еще предстоит преодолеть некоторые проблемы, потенциал будущего развития огромен, и его стоит с нетерпением ждать.