أصدرت Apple مؤخرًا نتيجة بحثية تعمل على تحسين كفاءة نماذج اللغات الكبيرة على الأجهزة ذات الذاكرة المحدودة بشكل ملحوظ. يقوم هذا البحث بتخزين معلمات النموذج بذكاء في ذاكرة فلاش وتحميلها إلى DRAM عند الطلب عند الحاجة، مما يؤدي بشكل فعال إلى حل مشكلة عنق الزجاجة في الذاكرة وتحقيق قفزة هائلة في سرعة الاستدلال من خلال سلسلة من استراتيجيات التحسين. يمهد هذا التقدم التكنولوجي الطريق لتطبيق نماذج لغوية كبيرة في البيئات المحدودة الموارد مثل الأجهزة المحمولة والأنظمة المدمجة، وله أهمية عملية مهمة.
تشير أحدث أبحاث Apple إلى أنه عندما تكون ذاكرة الجهاز محدودة، من خلال تخزين معلمات النموذج في ذاكرة فلاش وتحميلها في DRAM عند الطلب أثناء الاستدلال، تم تحسين كفاءة تشغيل نماذج اللغات الكبيرة بنجاح، وزادت سرعة الاستدلال بمقدار 25 مرة . تعمل هذه الطريقة على تحسين نموذج تكلفة الاستدلال، وتقليل كمية نقل البيانات، وتقديم إستراتيجيات النوافذ وتقنية تجميع الصفوف والأعمدة، مما يجعل من الممكن تشغيل نماذج أكبر بمرتين من سعة DRAM المتوفرة على الأجهزة ذات سعة الذاكرة المحدودة. بالمقارنة مع طريقة التحميل الساذجة، يتم زيادة سرعة الاستدلال لوحدة المعالجة المركزية ووحدة معالجة الرسومات بمقدار 4-5 مرات و20-25 مرة على التوالي، وهي تجمع بين الوعي المتناثر والتحميل المتكيف مع السياق والتصميم الموجه للأجهزة لتسهيل عملية التحميل استدلال نماذج اللغة الكبيرة على الأجهزة ذات الذاكرة المحدودة جلب إمكانيات جديدة. يمكن العثور على الورقة التفصيلية [هنا](https://arxiv.org/pdf/2312.11514.pdf).لا تحقق نتيجة البحث هذه تحسنًا كبيرًا في السرعة فحسب، بل الأهم من ذلك أنها توفر إمكانية تطبيق نماذج لغوية كبيرة على نطاق أوسع من الأجهزة، مما يشير إلى أن تقنية الذكاء الاصطناعي ستكون أكثر شعبية وملاءمة في المستقبل. يجلب هذا الابتكار من Apple اتجاهًا جديدًا لتطوير مجال الذكاء الاصطناعي.