ในช่วงไม่กี่ปีที่ผ่านมา เทคโนโลยีการวาดภาพด้วย AI ได้ก้าวหน้าไปอย่างรวดเร็ว แต่ก็ยังมีฉากที่ดูเรียบง่ายบางฉากที่ยากจะนำเสนอได้อย่างสมบูรณ์แบบ ทีมวิจัยจากมหาวิทยาลัย Shanghai Jiao Tong พบว่า AI ล้มเหลวซ้ำแล้วซ้ำเล่าในการสร้างฉาก "โค้กน้ำแข็งในถ้วยชา" ซึ่งก่อให้เกิดความสนใจทางวิชาการเกี่ยวกับปัญหาการวางแนวข้อความและรูปภาพที่ไม่ตรง ทีมงานเจาะลึก "ปัญหาถ้วยชา" นี้ และเสนอวิธีการใหม่ที่เรียกว่า Mixture of Concept Experts (MoCE) ซึ่งสามารถแก้ปัญหาแนวคิดที่ไม่ตรงกันที่ซ่อนอยู่ในการสร้างภาพ AI ได้อย่างมีประสิทธิภาพ
ในด้านปัญญาประดิษฐ์ ความสามารถของ AI จิตรกรได้มีการพัฒนาและปรับปรุงอย่างต่อเนื่อง อย่างไรก็ตาม แม้แต่โมเดลการสร้างภาพ AI ที่ทันสมัยที่สุดก็ยังต้องเผชิญกับงานบางอย่างที่ดูเรียบง่ายได้ เมื่อเร็วๆ นี้ Zhao Juntu ผู้สมัครระดับปริญญาเอกจาก Shanghai Jiao Tong University และทีมของเขาค้นพบในการวิจัยว่า AI แสดงให้เห็นถึงความยากลำบากที่ไม่คาดคิดในการสร้างฉาก "โคล่าน้ำแข็งในถ้วยชา"
ปรากฏการณ์นี้ดึงดูดความสนใจของแวดวงวิชาการ และเรียกว่าการวางแนวข้อความและรูปภาพไม่ตรง ในเดือนตุลาคม ปี 2023 เมื่อโมเดลการสร้างภาพ AI เพิ่งเกิดขึ้น Zhao Juntu และทีมงานของเขาได้ลองใช้และพบว่าเมื่อจิตรกร AI สร้างฉากนี้ พวกเขามักจะวาดแก้วใสที่เต็มไปด้วยโค้กเย็นแทนถ้วยชา แม้จะลองใช้โมเดลล้ำสมัยในเดือนกรกฎาคม 2024 แต่ผลลัพธ์ก็ยังไม่เป็นที่น่าพอใจ
เพื่อที่จะสำรวจปัญหานี้ในเชิงลึก กลุ่มวิจัยของศาสตราจารย์ Wang Dequan จากมหาวิทยาลัย Shanghai Jiao Tong ได้จัดประเภทปัญหานี้ว่ามีตัวแปรที่ซ่อนอยู่ในรายงานที่กำลังจะมีขึ้นเรื่อง "Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models" Misalignment ปัญหา (Latent Concept Misalignment เรียกว่า LC-Mis) พวกเขาออกแบบระบบโดยใช้โมเดลภาษาขนาดใหญ่ (LLM) เพื่อใช้ความคิดของมนุษย์ที่มีอยู่ใน LLM เพื่อช่วยรวบรวมคู่แนวคิดที่มีปัญหาคล้ายกันได้อย่างรวดเร็ว
ทีมวิจัยเสนอวิธีการที่เรียกว่า Mixture of Concept Experts (MoCE) ซึ่งรวมกฎของการทาสีตามลำดับเข้ากับกระบวนการสุ่มตัวอย่างแบบหลายขั้นตอนของแบบจำลองการแพร่กระจาย และนำถ้วยชาที่หายไปกลับคืนมาได้สำเร็จ
โดยแบ่งกระบวนการสุ่มตัวอย่างทั้งหมดออกเป็นสองขั้นตอน ขั้นตอนแรกให้เฉพาะแนวคิดที่มองข้ามได้ง่าย และขั้นตอนที่สองใช้ข้อความแจ้งที่สมบูรณ์ ด้วยแนวทางนี้ MoCE สามารถควบคุมการจัดตำแหน่งระหว่างข้อความและรูปภาพได้แม่นยำยิ่งขึ้นเมื่อสร้างรูปภาพ
วิธีการ MoCE ลดสัดส่วนของคู่แนวคิด LC-Mis ระดับ 5 ลงอย่างมาก และยังเหนือกว่า Dall・E3 (เวอร์ชันเดือนตุลาคม 2023) ซึ่งต้องใช้ต้นทุนคำอธิบายประกอบข้อมูลจำนวนมากในระดับหนึ่ง
นอกจากนี้ ทีมวิจัยยังพบว่าตัวบ่งชี้การประเมินอัตโนมัติที่มีอยู่มีข้อบกพร่องที่ชัดเจนเมื่อเผชิญกับปัญหาใหม่ประเภทนี้ ตัวอย่างเช่น ตัวชี้วัดการประเมินผลบางตัวให้คะแนนโค้กเย็นในแก้วชาต่ำกว่า แต่ให้คะแนนโค้กเย็นในแก้วใสสูงกว่า สิ่งนี้ชี้ให้เห็นว่าแม้แต่เครื่องมือในการประเมินประสิทธิภาพของ AI ก็อาจมีอคติและข้อจำกัดได้
นักวิจัยวางแผนที่จะสำรวจสถานการณ์ LC-Mis ที่ซับซ้อนมากขึ้นในงานในอนาคต และพัฒนาอัลกอริธึมการค้นหาที่เรียนรู้ได้เพื่อลดจำนวนการวนซ้ำ พวกเขายังวางแผนที่จะขยายประเภทของโมเดล เวอร์ชันของโมเดล และประเภทตัวอย่างที่ใช้ในชุดข้อมูล และทำซ้ำอัลกอริทึมการรวบรวมชุดข้อมูลต่อไปเพื่อปรับปรุงและขยายชุดข้อมูล
งานวิจัยนี้ไม่เพียงแต่ให้มุมมองใหม่ในการทำความเข้าใจข้อจำกัดของ AI ในการสร้างภาพ แต่ยังให้แนวคิดและวิธีการใหม่ๆ ในการปรับปรุงความสามารถในการสร้างภาพของ AI ในขณะที่เทคโนโลยีก้าวหน้าอย่างต่อเนื่อง เราคาดหวังว่า AI จะสร้างความก้าวหน้าที่ยิ่งใหญ่ยิ่งขึ้นในการทำความเข้าใจและผลิตซ้ำความคิดสร้างสรรค์ของมนุษย์
ที่อยู่โครงการ: https://lcmis.github.io/
บทความ: https://arxiv.org/pdf/2408.00230
การศึกษาเกี่ยวกับ "ปัญหาถ้วยชา" ในการสร้างภาพ AI นี้เผยให้เห็นข้อจำกัดของแบบจำลอง AI ในการจัดการแนวคิดที่ละเอียดอ่อน และยังให้ข้อมูลอ้างอิงที่มีคุณค่าสำหรับทิศทางการพัฒนาเทคโนโลยี AI ในอนาคต วิธีการ MoCE ที่เสนอโดยทีมวิจัยและการสะท้อนตัวชี้วัดการประเมินที่มีอยู่จะช่วยผลักดันเทคโนโลยีการสร้างภาพ AI ขึ้นไปอีกระดับ