Disney เปิดตัววิธีการบีบอัดภาพ AI ใหม่: สามารถเก็บรายละเอียดของภาพได้ แต่มีความเสี่ยงที่จะเป็น "ภาพลวงตา"

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-01 08:24:01

บรรณาธิการของ Downcodes ได้เรียนรู้ว่าทีมวิจัยของ Disney ได้เปิดตัววิธีการบีบอัดภาพใหม่โดยใช้โมเดล Stable Diffusion V1.2 วิธีการนี้สามารถสร้างภาพที่สมจริงสูงด้วยอัตราบิตต่ำ และประสิทธิภาพเหนือกว่าตัวแปลงสัญญาณ JPEG และ AV1 ที่มีอยู่ ตัวถอดรหัส เทคโนโลยีที่ก้าวล้ำนี้เรียกว่า "ตัวแปลงสัญญาณ" ใช้กระบวนการลดสัญญาณรบกวนของแบบจำลองการแพร่กระจายอย่างชาญฉลาด เพื่อรักษาข้อผิดพลาดเชิงปริมาณในการบีบอัดภาพเสมือนสัญญาณรบกวน ช่วยให้สามารถสร้างภาพใหม่ได้อย่างมีประสิทธิภาพ วิธีนี้ไม่จำเป็นต้องปรับแต่งโมเดลเพิ่มเติม ลดต้นทุนการฝึกอบรมได้อย่างมาก และทำงานได้ดีในการทดสอบชุดข้อมูลหลายชุด

การศึกษานี้แสดงให้เห็นว่าวิธีการใหม่นี้ทำงานได้ดีขึ้นในการกู้คืนรายละเอียดภาพ และยังลดต้นทุนการฝึกอบรมที่จำเป็นลงอย่างมากอีกด้วย นักวิจัยพบว่าข้อผิดพลาดเชิงปริมาณ (กระบวนการหลักในการบีบอัดภาพ) มีความคล้ายคลึงกับสัญญาณรบกวน (กระบวนการหลักในแบบจำลองการแพร่กระจาย) มาก ซึ่งภาพเชิงปริมาณแบบดั้งเดิมสามารถถือเป็นเวอร์ชันที่มีสัญญาณรบกวนของภาพต้นฉบับได้ ในกระบวนการนี้ กระบวนการลดสัญญาณรบกวนของแบบจำลองการแพร่กระจายจะใช้เพื่อสร้างภาพขึ้นใหม่ด้วยอัตราบิตเป้าหมาย

ในชุดการทดสอบ วิธีการใหม่ของ Disney เหนือกว่าเทคนิคการบีบอัดภาพก่อนหน้านี้ ทั้งในด้านความแม่นยำและการกู้คืนรายละเอียด นักวิจัยกล่าวว่าวิธีการของพวกเขาไม่จำเป็นต้องมีการปรับแต่งแบบจำลองการแพร่กระจายเพิ่มเติม และสามารถใช้แบบจำลองพื้นฐานที่มีอยู่ได้อย่างมีประสิทธิภาพ ข้อดีของตัวแปลงสัญญาณใหม่นี้คือประสิทธิภาพที่ยอดเยี่ยมในการสร้างภาพเสมือนจริงขึ้นมาใหม่ แม้ว่าในบางกรณีอาจมีอาการประสาทหลอน กล่าวคือ สิ่งประดิษฐ์อาจปรากฏในภาพที่สร้างขึ้นซึ่งไม่มีอยู่ในรายละเอียดภาพต้นฉบับ

แม้ว่าวิธีการบีบอัดนี้จะมีผลกระทบบางอย่างต่อการเรนเดอร์งานศิลปะและภาพถ่ายธรรมดา แต่ในบางสถานการณ์การใช้งานที่รายละเอียดมีความสำคัญ เช่น หลักฐานทางนิติเวช ข้อมูลการจดจำใบหน้า และการสแกนด้วยการรับรู้อักขระด้วยแสง (OCR) ก็มีโอกาสที่จะเกิดอาการประสาทหลอนได้ ความเสี่ยงมีความสำคัญมากขึ้น ในปัจจุบัน แม้ว่าเทคโนโลยีนี้จะยังอยู่ในช่วงเริ่มต้น แต่ด้วยการพัฒนาเทคโนโลยีการบีบอัดภาพที่เสริมด้วย AI ความท้าทายในสาขานี้จะค่อยๆ เกิดขึ้น

เพื่อให้การจัดเก็บภาพมีประสิทธิภาพมากขึ้น ในที่สุดทีมงาน Disney ได้เปิดตัวเทคโนโลยีใหม่นี้หลังจากการสำรวจระยะยาว พวกเขาฝึกฝนชุดข้อมูล Vimeo-90k และทดสอบกับชุดข้อมูลหลายชุด และผลลัพธ์แสดงให้เห็นว่าวิธีการดังกล่าวมีประสิทธิภาพเหนือกว่าวิธีก่อนหน้าในเมตริกคุณภาพของภาพหลายรายการ สุดท้ายนี้ นักวิจัยยังยืนยันถึงความเหนือกว่าของวิธีการของพวกเขาในการใช้งานจริงผ่านการวิจัยผู้ใช้

บทความ: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-เสริม-1.pdf

เทคโนโลยีการบีบอัดภาพของ Disney ที่ใช้ Stable Diffusion แสดงให้เห็นถึงศักยภาพมหาศาลของ AI ในด้านการประมวลผลภาพ แม้ว่าจะมีความท้าทาย เช่น ภาพลวงตา แต่การปรับปรุงคุณภาพและประสิทธิภาพของภาพก็มีความสำคัญ ในอนาคต ด้วยการปรับปรุงเทคโนโลยีอย่างต่อเนื่อง เทคโนโลยีนี้คาดว่าจะถูกนำไปใช้ในสาขาอื่นๆ มากขึ้น ซึ่งนำมาซึ่งการเปลี่ยนแปลงที่ปฏิวัติวงการในการจัดเก็บและการส่งผ่านภาพ คาดว่าการวิจัยติดตามผลจะสามารถแก้ปัญหาภาพลวงตาต่อไปได้ และทำให้มันมีประโยชน์ในฉากที่ต้องการรายละเอียดมากขึ้น