يتم استخدام نماذج اللغات الكبيرة التوليدية (LLM) على نطاق واسع بشكل متزايد، ويعتمد تشغيلها الفعال على قوة الحوسبة القوية. ظهر PowerInfer إلى حيز الوجود وهو عبارة عن محرك استدلال هجين GPU-CPU مبتكر مصمم لتحسين سرعة تشغيل وكفاءة LLM على أجهزة الكمبيوتر العادية. يستفيد PowerInfer بذكاء من مزايا وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسومات (GPU) للتحميل المسبق للخلايا العصبية المنشطة على البارد على وحدة المعالجة المركزية (CPU) والخلايا العصبية المنشطة على الساخن على وحدة معالجة الرسومات (GPU)، وبالتالي تحقيق الوصول والحساب السريع. تخترق هذه التقنية عنق الزجاجة في أداء LLM على الأجهزة ذات موارد الحوسبة المحدودة، مما يوفر للمستخدمين تجربة أكثر ملاءمة وكفاءة.
تُعرف نماذج اللغات الكبيرة التوليدية بأدائها المتميز في مجموعة متنوعة من المهام، بما في ذلك معالجة اللغة الطبيعية المعقدة والكتابة الإبداعية والإجابة على الأسئلة وإنشاء التعليمات البرمجية. تم تشغيل LLM على أنظمة محلية سهلة الاستخدام، بما في ذلك أجهزة الكمبيوتر المنزلية المزودة بوحدات معالجة الرسومات المخصصة للمستهلك. من المفهوم أن PowerInfer هو محرك استدلال هجين لوحدة معالجة الرسومات ووحدة المعالجة المركزية يستفيد من هذا الفهم، حيث يقوم بتحميل الخلايا العصبية المنشطة على البارد مسبقًا على وحدة المعالجة المركزية لإجراء العمليات الحسابية والخلايا العصبية المنشطة على الساخن على وحدة معالجة الرسومات للوصول الفوري. بعد التقييم، أظهر PowerInfer أيضًا أنه يعمل بمعدل 11.69 مرة أسرع من نظام llama.cpp الحالي مع الحفاظ على دقة النموذج. باختصار، يعمل PowerInfer على تحسين سرعة الاستدلال LLM بشكل كبير، مما يدل على أدائه كجهاز كمبيوتر مكتبي مزود بقدرات GPU محدودة.
يمثل ظهور PowerInfer علامة فارقة جديدة في تطبيق LLM على أجهزة الكمبيوتر العادية. إن تحسين الأداء الكبير والحفاظ على دقة النموذج يوفر تجربة ذكاء اصطناعي أكثر سلاسة وملاءمة لغالبية المستخدمين، ويبشر أيضًا بمزيد من الاحتمالات لتطبيقات LLM في المستقبل.