تجري شركة Nous Research تجربة رائدة: استخدام الآلات الموزعة عالميًا للتدريب المسبق لنموذج لغة كبير مكون من 1.5 مليار معلمة (LLM). تعمل هذه التجربة على تقويض نموذج التدريب المركزي التقليدي، وتتجنب مراكز البيانات باهظة الثمن والمستهلكة للطاقة، وتبث عملية التدريب في الوقت الفعلي من خلال موقعها الإلكتروني distro.nousresearch.com، مما يوضح أداء النموذج وخرائط مواقع الأجهزة. لا تؤدي هذه الخطوة إلى تقليل تكاليف التدريب فحسب، بل الأهم من ذلك، أنه من المتوقع أن تخفض حاجز الدخول أمام نماذج اللغات الكبيرة، مما يسمح لمزيد من الفرق الصغيرة والأفراد بالمشاركة في البحث وتطوير الذكاء الاصطناعي التوليدي.
في مجال الذكاء الاصطناعي التوليدي سريع التطور، يجري فريق Nous Research تجربة فريدة من نوعها: فهم يستخدمون آلات موزعة حول العالم للتدريب المسبق لنموذج لغة كبير مكون من 1.5 مليار معلمة (LLM)، وهي عملية تتجنب المتطلبات التقليدية المركزية التطوير في مراكز البيانات أو المجموعات الفائقة باهظة الثمن والمتعطشة للطاقة.
تقوم شركة Nous Research أيضًا ببث عملية التدريب المسبق مباشرة على موقعها الإلكتروني المخصص distro.nousresearch.com، مما يوضح أداء النموذج وفقًا لمعايير التقييم المختلفة في الوقت الفعلي، وتوفير خريطة لمواقع الأجهزة المشاركة في التدريب، تغطي مواقع متعددة في الولايات المتحدة وأوروبا. وحتى تاريخ نشر هذا المقال، بلغ الوقت المتبقي للتدريب المسبق حوالي 57 ساعة (أي 2.3 يوم)، وتم الانتهاء من أكثر من 75% من تقدم التدريب.
التدريب المسبق هو الخطوة الأولى والأكثر أساسية في تدريب LLM، والذي يتضمن تدريب كمية كبيرة من البيانات النصية لتعلم الخصائص الإحصائية وبنية اللغة. في هذه المرحلة، يلتقط النموذج أنماط اللغة وبناء الجملة والعلاقات السياقية بين الكلمات عن طريق معالجة مجموعات بيانات نصية واسعة النطاق. تمنح هذه العملية النموذج فهمًا واسعًا للغة، والقدرة على إنشاء نص متماسك وتنفيذ مجموعة متنوعة من المهام المتعلقة باللغة. بعد التدريب المسبق، يحتاج النموذج أيضًا إلى الضبط الدقيق لمهام أو مجالات محددة.
إذا نجحت هذه الخطة، فسوف تثبت شركة Nous Research أنه لا يزال من الممكن تدريب LLM المتطور بدون مجموعات فائقة باهظة الثمن أو إرسال منخفض الكمون، مما يمثل حقبة جديدة من تدريب الذكاء الاصطناعي الموزع. يمكن لهذا النهج التدريبي مفتوح المصدر أن يغير ديناميكيات القوة للذكاء الاصطناعي التوليدي، مما يجعل الفرق الصغيرة والجهات الفاعلة غير الشركاتية أكثر قدرة على المنافسة في هذا المجال.
التكنولوجيا الجديدة التي يستخدمها Nous تسمى Nous DisTrO (التدريب الموزع عبر الإنترنت)، والتي تم تصميمها لتقليل متطلبات النطاق الترددي للاتصالات بين وحدات معالجة الرسومات أثناء عملية ما قبل التدريب. وفقًا لأحدث إصدار من Nous Research، يمكن لـ DisTrO تقليل متطلبات الاتصال بما يصل إلى 10000 مرة، مما يسمح بالحفاظ على معدلات التقارب التنافسية ومنحنيات الخسارة عبر اتصالات الإنترنت الأبطأ وبأسعار معقولة.
بالإضافة إلى ذلك، فإن الاختراق الأساسي لـ DisTrO هو ضغط كمية البيانات المتبادلة بين وحدات معالجة الرسومات بشكل فعال دون التأثير على أداء النموذج. تعتمد هذه التقنية على خوارزمية Decoupled Momentum Optimization (DeMo) السابقة، والتي تهدف أيضًا إلى تقليل متطلبات الاتصال بين وحدات معالجة الرسومات بشكل كبير مع الحفاظ على أداء التدريب.
فيما يتعلق بالأجهزة، يتم دعم عملية التدريب المسبق لشركة Nous Research من قبل العديد من الشركاء المعروفين مثل Oracle وLambda Labs وNorthern Data Group وCrusoe Cloud وAndromeda Cluster، الذين يوفرون معًا الأجهزة غير المتجانسة المطلوبة لاختبار DisTrO بشكل كامل في التوزيع الفعلي القدرة في البيئة.
مدخل المدونة: https://nousresearch.com/
هذه التجربة التي أجرتها شركة Nous Research لم تحقق طفرة في التكنولوجيا فحسب، بل الأهم من ذلك أنها قدمت فكرة وإمكانية جديدة لباحثي الذكاء الاصطناعي في جميع أنحاء العالم، مما يبشر بتغيير في نموذج تدريب الذكاء الاصطناعي. في المستقبل، ربما تظهر المزيد من مشاريع التدريب الموزعة المماثلة، مما يؤدي إلى خفض عتبة الدخول لتكنولوجيا الذكاء الاصطناعي وتعزيز التطوير النشط في مجال الذكاء الاصطناعي.