تقدم هذه المقالة دراسة مذهلة أجراها باحثون من ByteDance وPOSTECH تعمل على تحسين الكفاءة الحسابية لنموذج تحويل النص إلى صورة (T2I) FLUX.1-dev بشكل كبير من خلال تقنية التكميم 1.58 بت، مما يسمح لها بالعمل في ظل قيود الموارد التي تعمل على جهاز. تتطلب هذه الطريقة فقط التعلم الخاضع للإشراف الذاتي للنموذج نفسه ولا تتطلب الوصول إلى بيانات الصورة، ويمكنها ضغط مساحة تخزين النموذج بمقدار 7.7 مرة وتقليل استخدام ذاكرة الاستدلال بأكثر من 5.1 مرة، مع الحفاظ على نفس جودة التوليد. نموذج الدقة الكاملة يوفر هذا البحث إمكانيات جديدة لنشر نماذج T2I عالية الأداء على الأجهزة المحمولة والأنظمة الأساسية الأخرى، كما يوفر تجربة قيمة لأبحاث تحسين نماذج الذكاء الاصطناعي المستقبلية.
لقد أتاح التطور السريع لنماذج تحويل النص إلى صورة المعتمدة على الذكاء الاصطناعي فرصًا وتحديات جديدة لجميع مناحي الحياة. توفر نتائج أبحاث ByteDance وPOSTECH حلاً فعالاً لحل مشكلة نشر نماذج الذكاء الاصطناعي عالية الأداء على الأجهزة ذات الموارد المحدودة. وستمهد التحسينات الكبيرة في ضغط النماذج وتحسين الذاكرة وصيانة الأداء الطريق لتطبيقات الذكاء الاصطناعي المستقبلية. لقد أرسى التعميم والتطوير أساسًا متينًا. سوف تستكشف الأبحاث المستقبلية كيفية التغلب على القيود المفروضة على FLUX 1.58 بت في السرعة وعرض تفاصيل الصور عالية الدقة لتمكين التطبيقات الأوسع.