ทีมวิจัยของดิสนีย์ใช้โมเดลการแพร่กระจาย V1.2 ที่เสถียรเพื่อพัฒนาวิธีการบีบอัดภาพใหม่และบรรลุการสร้างภาพที่สมจริงยิ่งขึ้นในอัตราบิตต่ำ เรียกว่า "ตัวแปลงสัญญาณ" และประสิทธิภาพของมันเหนือกว่าตัวแปลงสัญญาณ JPEG และ AV1 แบบดั้งเดิมดำเนินการอย่างยอดเยี่ยมในการกู้คืนรายละเอียดภาพและค่าใช้จ่ายในการฝึกอบรม การศึกษาครั้งนี้มีความสัมพันธ์กับข้อผิดพลาดเชิงปริมาณอย่างชาญฉลาดกับเสียงรบกวนในแบบจำลองการแพร่กระจายสร้างภาพใหม่โดยใช้กระบวนการ denoising และทดสอบและตรวจสอบความถูกต้องในชุดข้อมูลหลายชุด
การศึกษาแสดงให้เห็นว่าวิธีการใหม่ทำงานได้ดีขึ้นในการกู้คืนรายละเอียดภาพในขณะที่ค่าใช้จ่ายในการฝึกอบรมที่ต้องการจะลดลงอย่างมาก นักวิจัยพบว่าข้อผิดพลาดเชิงปริมาณ (กระบวนการหลักในการบีบอัดภาพ) คล้ายกับเสียงรบกวนมาก (กระบวนการหลักในรูปแบบการแพร่กระจาย) ดังนั้นภาพเชิงปริมาณแบบดั้งเดิมจึงถือได้ว่าเป็นภาพที่มีเสียงดังของภาพต้นฉบับ ในกระบวนการนี้กระบวนการ denoising ของแบบจำลองการแพร่กระจายใช้เพื่อสร้างภาพขึ้นใหม่ในอัตราบิตเป้าหมาย
ในการทดสอบหลายชุดวิธีการใหม่ของดิสนีย์นั้นเกินกว่าเทคนิคการบีบอัดภาพก่อนหน้าทั้งในทั้งความแม่นยำและการกู้คืนรายละเอียด นักวิจัยกล่าวว่าวิธีการของพวกเขาไม่จำเป็นต้องมีการปรับแต่งแบบจำลองการแพร่กระจายเพิ่มเติมและสามารถใช้แบบจำลองพื้นฐานที่มีอยู่ได้อย่างมีประสิทธิภาพ ข้อได้เปรียบของตัวแปลงสัญญาณใหม่นี้คือมันทำงานได้ดีในการสร้างความรู้สึกของความเป็นจริงแม้ว่าในบางกรณีอาจมีอาการหลอนนั่นคือมันอาจปรากฏในภาพที่สร้างขึ้นและไม่มีอยู่ในภาพต้นฉบับ
แม้ว่าวิธีการบีบอัดนี้มีผลกระทบบางอย่างต่อการนำเสนองานศิลปะและภาพถ่ายสามัญในสถานการณ์แอปพลิเคชันบางอย่างที่เกี่ยวข้องกับรายละเอียดเช่นหลักฐานของศาลข้อมูลการจดจำใบหน้าและการสแกนตัวละครแบบออพติคอล (OCR) ซึ่งเป็นศักยภาพของปรากฏการณ์ภาพหลอน ความเสี่ยงมีความสำคัญมากกว่า ในปัจจุบันแม้ว่าเทคโนโลยีนี้ยังอยู่ในช่วงเริ่มต้นความท้าทายในสาขานี้จะค่อยๆเกิดขึ้นกับการพัฒนาเทคโนโลยีการบีบอัดภาพ AI-image
เพื่อให้การจัดเก็บภาพมีประสิทธิภาพมากขึ้นทีมดิสนีย์ได้เปิดตัวเทคโนโลยีใหม่นี้หลังจากการสำรวจระยะยาว พวกเขาได้รับการฝึกฝนเกี่ยวกับชุดข้อมูล Vimeo-90K และทดสอบในชุดข้อมูลหลายชุดและผลลัพธ์แสดงให้เห็นว่าวิธีนี้ดีกว่าวิธีการก่อนหน้านี้ในการวัดคุณภาพของภาพหลายตัว ในที่สุดนักวิจัยยังยืนยันถึงความเหนือกว่าของวิธีการของพวกเขาในการใช้งานจริงผ่านการวิจัยผู้ใช้
กระดาษ: https://studios.disneyresearch.com/app/uploads/2024/09/lossy-image-compression-with-foundation-diffusion-models-supplementary-1.pdf
ประเด็นสำคัญ:
1. เทคโนโลยีการบีบอัดอิมเมจ AI ใหม่ของดิสนีย์สามารถสร้างภาพที่สมจริงยิ่งขึ้นที่บิตเรตที่ต่ำกว่า
2. วิธีนี้ดำเนินการอย่างยอดเยี่ยมในการกู้คืนรายละเอียดและค่าใช้จ่ายในการฝึกอบรมโดยไม่ต้องปรับแต่งเพิ่มเติม
3. แม้ว่าผลกระทบจะมีความสำคัญ แต่รายละเอียดที่ไม่ตรงกับภาพต้นฉบับอาจถูกสร้างขึ้นและมีความเสี่ยงของ "ภาพลวงตา"
แม้ว่าเทคโนโลยีการบีบอัดภาพ AI ของดิสนีย์ยังคงมีปัญหาเช่น "ภาพลวงตา" แต่ความสามารถในการสร้างภาพที่มีความสมจริงในอัตราที่ต่ำและค่าใช้จ่ายในการฝึกอบรมที่มีประสิทธิภาพนั้นแสดงให้เห็นถึงศักยภาพที่ยิ่งใหญ่ ในอนาคตเมื่อเทคโนโลยียังคงเติบโตอย่างต่อเนื่องเทคโนโลยีนี้จะมีบทบาทสำคัญในด้านการจัดเก็บภาพและการส่งผ่านภาพ