علم محرر موقع Downcodes أن فريق أبحاث ديزني قد أصدر طريقة جديدة لضغط الصور تعتمد على نموذج Stable Diffusion V1.2، ويمكن لهذه الطريقة إنشاء صور عالية الواقعية بمعدلات بت منخفضة، ويتفوق أداؤها على برامج الترميز JPEG وAV1 الحالية. فك التشفير. تستخدم هذه التقنية المتقدمة، والتي تسمى "برنامج الترميز"، بذكاء عملية تقليل الضوضاء الخاصة بنموذج الانتشار لمعالجة أخطاء القياس الكمي في ضغط الصورة كضوضاء، مما يسمح بإعادة بناء الصورة بكفاءة. لا تتطلب هذه الطريقة ضبطًا دقيقًا إضافيًا للنموذج، وتقلل بشكل كبير من تكاليف التدريب، وتعمل بشكل جيد في اختبارات مجموعات البيانات المتعددة.
توضح هذه الدراسة أن الطريقة الجديدة تؤدي أداءً أفضل في استعادة تفاصيل الصورة، كما يتم أيضًا تقليل تكلفة التدريب المطلوبة بشكل كبير. وجد الباحثون أن خطأ القياس الكمي (عملية أساسية في ضغط الصور) يشبه إلى حد كبير الضوضاء (عملية أساسية في نماذج الانتشار) بحيث يمكن اعتبار الصورة الكمية تقليديًا بمثابة نسخة مزعجة من الصورة الأصلية. في هذه العملية، يتم استخدام عملية تقليل الضوضاء لنموذج الانتشار لإعادة بناء الصورة بمعدل البت المستهدف.
وفي سلسلة من الاختبارات، تجاوز أسلوب ديزني الجديد تقنيات ضغط الصور السابقة من حيث الدقة واستعادة التفاصيل. يقول الباحثون إن طريقتهم لا تتطلب ضبطًا إضافيًا لنموذج الانتشار ويمكنها استخدام النماذج الأساسية الموجودة بشكل فعال. تكمن ميزة برنامج الترميز الجديد هذا في أدائه الممتاز في إعادة البناء الواقعي، على الرغم من أنه قد يعاني في بعض الحالات من الهلوسة، أي أنه قد تظهر قطع أثرية في الصورة التي تم إنشاؤها لم تكن موجودة في تفاصيل الصورة الأصلية.
على الرغم من أن طريقة الضغط هذه لها تأثير معين على عرض الأعمال الفنية والصور العادية، إلا أنه في بعض سيناريوهات التطبيق حيث تكون التفاصيل مهمة، مثل أدلة الطب الشرعي، وبيانات التعرف على الوجه، والمسح الضوئي للتعرف على الحروف (OCR)، فإن احتمال حدوث الهلوسة المخاطرة تصبح أكثر أهمية. حاليًا، على الرغم من أن هذه التقنية لا تزال في مهدها، ومع تطور تقنية ضغط الصور المعززة بالذكاء الاصطناعي، فإن التحديات في هذا المجال ستظهر تدريجيًا.
من أجل جعل تخزين الصور أكثر كفاءة، أطلق فريق ديزني أخيرًا هذه التكنولوجيا الجديدة بعد استكشاف طويل الأمد. لقد تدربوا على مجموعة بيانات Vimeo-90k وتم اختبارهم على مجموعات بيانات متعددة، وأظهرت النتائج أن الطريقة تفوقت على الأساليب السابقة في مقاييس جودة الصورة المتعددة. وأخيراً أكد الباحثون أيضاً تفوق أسلوبهم في التطبيقات العملية من خلال بحث المستخدم.
الورقة: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models- التكميلي-1.pdf
تُظهر تقنية ضغط الصور من ديزني المستندة إلى Stable Diffusion الإمكانات الهائلة للذكاء الاصطناعي في مجال معالجة الصور، وعلى الرغم من وجود تحديات مثل الوهم، إلا أن تحسنها في جودة الصورة وكفاءتها يعد أمرًا كبيرًا. في المستقبل، ومع التحسين المستمر للتكنولوجيا، من المتوقع أن يتم تطبيق هذه التكنولوجيا في المزيد من المجالات، مما يؤدي إلى تغييرات ثورية في تخزين الصور ونقلها. من المتوقع أن تؤدي أبحاث المتابعة إلى حل مشكلة الوهم بشكل أكبر وجعلها مفيدة في المشاهد التي تتطلب المزيد من التفاصيل.