استخدم فريق أبحاث ديزني نموذج الانتشار المستقر V1.2 لتطوير طريقة جديدة لضغط الصور وتحقيق توليد صور أكثر واقعية بمعدل بت منخفض. يسمى "برنامج الترميز" وأدائه يتجاوز برامج الترميز التقليدية JPEG و AV1 ، ويؤدي بشكل ممتاز في تكاليف استرداد وتفاصيل الصورة. ترتبط هذه الدراسة بذكاء أخطاء تحديد الكمي مع الضوضاء في نموذج الانتشار ، وإعادة بناء الصور باستخدام عملية تقليل الوفرة ، واختباراتها وتصحيحها على مجموعات بيانات متعددة.
توضح الدراسة أن الطريقة الجديدة تعمل بشكل أفضل في استرداد تفاصيل الصورة ، في حين أن تكاليف التدريب المطلوبة تقل إلى حد كبير. وجد الباحثون أن خطأ التكيف (العملية الأساسية في ضغط الصورة) يشبه إلى حد كبير الضوضاء (العملية الأساسية في نموذج الانتشار) ، لذلك يمكن اعتبار الصور الكمية التقليدية كنسخة صاخبة من الصورة الأصلية. في هذه العملية ، يتم استخدام عملية تقسيم نموذج الانتشار لإعادة بناء الصورة بمعدل بت الهدف.
في سلسلة من الاختبارات ، تجاوز نهج ديزني الجديد تقنيات ضغط الصور السابقة في كل من الدقة واستعادة التفاصيل. وقال الباحثون إن نهجهم لا يتطلب ضبطًا إضافيًا لنموذج الانتشار ويمكنه استخدام النماذج الأساسية الحالية بشكل فعال. تتمثل ميزة هذا الترميز الجديد في أنه يعمل بشكل جيد في إعادة بناء الشعور بالواقع ، على الرغم من أنه قد يعاني من الهلوسة في بعض الحالات ، أي قد يظهر في الصورة التي تم إنشاؤها ولا توجد في الصورة الأصلية.
على الرغم من أن طريقة الضغط هذه لها تأثير معين على تقديم الأعمال الفنية والصور العادية ، في بعض سيناريوهات التطبيق المتعلقة بالتفاصيل ، مثل أدلة المحكمة ، وبيانات التعرف على الوجه ، ومسح التعرف على الشخصية البصرية (OCR) ، إمكانية ظواهر الهلوسة. المخاطر أكثر أهمية. في الوقت الحاضر ، على الرغم من أن هذه التكنولوجيا لا تزال في مراحلها المبكرة ، فإن التحديات في هذا المجال ستظهر تدريجياً مع تطوير تكنولوجيا ضغط الصور المحسنة AI.
من أجل جعل تخزين الصور أكثر كفاءة ، أطلق فريق ديزني أخيرًا هذه التكنولوجيا الجديدة بعد الاستكشاف على المدى الطويل. لقد تدربوا على مجموعة بيانات Vimeo-90K واختبارهم على مجموعات بيانات متعددة ، وأظهرت النتائج أن الطريقة كانت أفضل من الطرق السابقة على مقاييس جودة الصور المتعددة. في النهاية ، أكد الباحثون أيضًا تفوق طريقتهم في التطبيقات العملية من خلال أبحاث المستخدم.
الورق: https://studios.disneyresearch.com/app/uploads/2024/09/lossy-image-cression-with-foundation-diffusion-models-supplementary-1.pdf
النقاط الرئيسية:
1.
2. هذه الطريقة تؤدي بشكل ممتاز بالتفصيل تكاليف الاسترداد والتدريب دون صقل إضافي.
3. على الرغم من أن التأثير مهم ، إلا أنه قد يتم إنشاء التفاصيل التي لا تتطابق مع الصورة الأصلية ، وهناك خطر "الوهم".
على الرغم من أن تقنية ضغط الصور من ديزني لا تزال تواجه مشاكل مثل "الوهم" ، إلا أن قدرتها على توليد صور واقعية بمعدل منخفض وتكاليف تدريب فعالة أظهرت كلها إمكاناتها الضخمة. في المستقبل ، مع استمرار النضج التكنولوجي ، ستلعب هذه التكنولوجيا دورًا مهمًا في مجال تخزين الصور ونقلها.