DiffSensei: ระบบ AI ที่แปลงเรื่องราวที่เขียนเป็นสไตล์หนังสือการ์ตูนโดยอัตโนมัติ

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-01-19 19:00:02

มหาวิทยาลัยปักกิ่ง ห้องปฏิบัติการปัญญาประดิษฐ์เซี่ยงไฮ้ และมหาวิทยาลัยเทคโนโลยีนันยาง ร่วมกันพัฒนาระบบ AI ที่เป็นนวัตกรรมใหม่ที่เรียกว่า DiffSensei ซึ่งสามารถเปลี่ยนเรื่องราวที่เขียนเป็นสไตล์การ์ตูนได้โดยอัตโนมัติ ระบบใช้โมเดลการแพร่กระจายและโมเดลภาษาขนาดใหญ่เพื่อจัดการกับองค์ประกอบภาพและการเล่าเรื่องในการสร้างการ์ตูน และบรรลุการสร้างสรรค์การ์ตูนในสามขั้นตอน (การสร้างเค้าโครงหน้า การวาดตัวละคร และการเพิ่มข้อความบทสนทนา) เพื่อตรวจสอบการทำงานของมัน ทีมวิจัยได้สร้างการ์ตูนเกี่ยวกับผู้บุกเบิกในด้านปัญญาประดิษฐ์ DiffSensei ทำงานได้ดีในการรักษาความสม่ำเสมอในรูปลักษณ์ของตัวละครและการควบคุมเค้าโครงหน้า ซึ่งแสดงให้เห็นถึงศักยภาพที่ยอดเยี่ยมของ AI ในการสร้างการ์ตูน แต่ยังเผชิญกับความท้าทายบางประการ เช่น ข้อผิดพลาดที่อาจเกิดขึ้นเมื่อรูปภาพอ้างอิงตัวละครไม่ชัดเจนเพียงพอ

โปรเจ็กต์นี้ได้รับการฝึกฝนโดยใช้ชุดข้อมูลที่เรียกว่า MangaZero ซึ่งมีหน้าการ์ตูนมากกว่า 43,000 หน้า และแผงแต่ละแผง 427,000 แผงจากซีรีส์การ์ตูน 48 ชุดที่แตกต่างกัน ซึ่งแต่ละหน้ามีคำอธิบายประกอบโดยละเอียด DiffSensei ใช้โมเดลหลายรูปแบบและเทคโนโลยี LoRA เพื่อให้แน่ใจว่าตัวละครในการ์ตูนจะคงรูปลักษณ์ที่สอดคล้องกันในทุกแผง แม้จะมีความท้าทายบางประการ เช่น ข้อผิดพลาดที่อาจเกิดขึ้นเมื่อภาพอ้างอิงตัวละครไม่ชัดเจนเพียงพอ และผลงานศิลปะที่อาจดูจืดชืดหากไม่มีการอ้างอิงตัวละครที่ชัดเจน DiffSensei มอบเครื่องมือใหม่อันทรงพลังแก่ศิลปิน ผู้จัดพิมพ์ และผู้สร้าง อนาคตสัญญาว่าจะทำให้กระบวนการผลิตการ์ตูนง่ายขึ้นอย่างมาก

ภาพ: Wu และคณะ

DiffSensei ทำงานอย่างไร

DiffSensei ใช้โมเดลหลายรูปแบบและเทคโนโลยี LoRA เพื่อให้แน่ใจว่าตัวละครในการ์ตูนจะคงรูปลักษณ์ที่สอดคล้องกันในทุกแผง ระบบดำเนินการสร้างการ์ตูนในสามขั้นตอน: ขั้นแรกสร้างเค้าโครงหน้า จากนั้นวาดตัวละคร และสุดท้ายเพิ่มข้อความบทสนทนา

เพื่อฝึก DiffSensei นักวิจัยได้สร้างชุดข้อมูลชื่อ MangaZero ชุดข้อมูลประกอบด้วยการ์ตูนมากกว่า 43,000 หน้าและแผงต่างๆ 427,000 แผงจากซีรีส์การ์ตูนที่แตกต่างกัน 48 ชุด แต่ละแผงมีคำอธิบายประกอบโดยละเอียด ตำแหน่งตัวละครและตำแหน่งบทสนทนา ซึ่งจำเป็นสำหรับการทำงานของระบบที่ราบรื่น

ภาพ: Wu และคณะ

ศักยภาพและความท้าทายในอนาคต

แม้ว่า DiffSensei จะแสดงศักยภาพที่ยอดเยี่ยม แต่ระบบยังคงเผชิญกับความท้าทายบางประการ ในปัจจุบัน ระบบสามารถทำให้เกิดข้อผิดพลาดได้เมื่อรูปภาพอ้างอิงของตัวละครไม่ชัดเจนเพียงพอ และบางครั้งตัวละครที่คล้ายคลึงกันก็รวมเข้าด้วยกันอย่างผิดพลาด นอกจากนี้ หากไม่มีการอ้างอิงตัวละครที่ชัดเจน งานศิลปะที่ได้อาจดูไม่สุภาพและไม่สามารถนำเสนอสไตล์การ์ตูนที่เฉพาะเจาะจงได้อย่างสมบูรณ์แบบ

นักวิจัยเชื่อว่า DiffSensei สามารถลดความซับซ้อนของกระบวนการผลิตการ์ตูนได้อย่างมากในอนาคต เทคโนโลยีนี้ช่วยให้ศิลปิน ผู้จัดพิมพ์ และนักสร้างสรรค์มีเครื่องมือใหม่ที่ช่วยให้พวกเขาสร้างการ์ตูนที่เป็นส่วนตัวได้อย่างง่ายดาย ขณะเดียวกันก็รักษาการควบคุมตัวละครและเค้าโครงหน้าได้อย่างแม่นยำ

โดยรวมแล้ว การปรากฏตัวของ DiffSensei แสดงให้เห็นว่า AI มีความก้าวหน้าอย่างมากในด้านการสร้างสรรค์การ์ตูน โดยนำความเป็นไปได้ใหม่ๆ มาสู่การสร้างสรรค์การ์ตูน แม้ว่ายังคงมีความท้าทายที่ต้องเอาชนะ แต่ศักยภาพในการพัฒนาในอนาคตนั้นมีมากมายและคุ้มค่ากับการรอคอย