A Universidade de Pequim, o Laboratório de Inteligência Artificial de Xangai e a Universidade Tecnológica de Nanyang desenvolveram em conjunto um sistema inovador de IA chamado DiffSensei, que pode converter automaticamente histórias escritas em estilo cômico. O sistema utiliza modelos de difusão e modelos de linguagem em larga escala para lidar com elementos visuais e narrativos na criação de quadrinhos e realiza a criação de quadrinhos em três etapas (gerando layout de página, desenhando personagens e adicionando texto de diálogo). Para verificar sua funcionalidade, a equipe de pesquisa também criou uma história em quadrinhos fictícia sobre um pioneiro na área de inteligência artificial. O DiffSensei tem um bom desempenho na manutenção da consistência na aparência dos personagens e no controle do layout da página, demonstrando o grande potencial da IA na criação de quadrinhos, mas também enfrenta alguns desafios, como erros que podem ocorrer quando as imagens de referência dos personagens não são suficientemente claras.
O projeto foi treinado usando um conjunto de dados chamado MangaZero, que contém mais de 43.000 páginas de quadrinhos e 427.000 painéis individuais de 48 séries de quadrinhos diferentes, cada uma delas detalhadamente anotada. O DiffSensei usa modelos multimodais e tecnologia LoRA para garantir que os personagens de quadrinhos mantenham uma aparência consistente em cada painel. Apesar de alguns desafios, como erros que podem ocorrer quando as imagens de referência dos personagens não são claras o suficiente, e a arte resultante que pode parecer branda na ausência de referências claras aos personagens, o DiffSensei fornece aos artistas, editores e criadores uma nova e poderosa ferramenta que o o futuro promete simplificar bastante o processo de produção de quadrinhos.
Imagem: Wu et al.
Imagem: Wu et al.
Como funciona o DiffSensei
O DiffSensei usa modelos multimodais e tecnologia LoRA para garantir que os personagens dos quadrinhos mantenham uma aparência consistente em cada painel. O sistema implementa a criação de quadrinhos em três etapas: primeiro gerando o layout da página, depois desenhando os personagens e, finalmente, adicionando o texto do diálogo.
Para treinar o DiffSensei, os pesquisadores construíram um conjunto de dados chamado MangaZero. O conjunto de dados contém mais de 43.000 páginas de quadrinhos e 427.000 painéis individuais de 48 séries de quadrinhos diferentes. Cada painel é anotado detalhadamente, registrando as posições dos personagens e dos diálogos, o que é essencial para o bom funcionamento do sistema.
Imagem: Wu et al.
Potencial futuro e desafios
Embora o DiffSensei mostre um grande potencial, o sistema ainda enfrenta alguns desafios. Atualmente, o sistema pode cometer erros quando a imagem de referência de um personagem não é clara o suficiente e, às vezes, caracteres semelhantes são mesclados por engano. Além disso, sem referências claras aos personagens, a arte resultante pode parecer branda e não representar perfeitamente um estilo cômico específico.
Os pesquisadores acreditam que o DiffSensei pode simplificar bastante o processo de produção de quadrinhos no futuro. A tecnologia oferece aos artistas, editores e criadores uma nova ferramenta que lhes permite criar facilmente quadrinhos personalizados, mantendo ao mesmo tempo um controle preciso sobre os personagens e o layout da página.
Em suma, o surgimento do DiffSensei marca que a IA fez progressos significativos no campo da criação de quadrinhos, trazendo novas possibilidades para a criação de quadrinhos. Embora ainda existam alguns desafios a superar, o seu potencial de desenvolvimento futuro é enorme e vale a pena aguardar com expectativa.