صغيرة ولكنها قوية! قام فريق مكون من 10 أشخاص ببناء أول لاما 3.1 405 بي

الكاتب：Eve Cole وقت التحديث：2024-12-22 08:32:01

في مجال الذكاء الاصطناعي هناك العديد من العمالقة والمنافسة شرسة. ومع ذلك، نجحت شركة Nous Research، وهي شركة ناشئة مكونة من 10 أشخاص فقط، في تحدي سلطة عمالقة التكنولوجيا بقوتها التقنية القوية ومفهومها مفتوح المصدر. تم ضبط نموذج Hermes3 الذي تم إصداره حديثًا استنادًا إلى Llama 3.1، بحجم معلمة يبلغ 405B وأداء مذهل، وقد تم تنزيله أكثر من 33 مليون مرة، مما يجعله منتجًا استثنائيًا في صناعة الذكاء الاصطناعي. سوف تتعمق هذه المقالة في الأداء الممتاز لنموذج Hermes3، وطرق التدريب الفعالة، والروح المبتكرة لأبحاث Nous.

تجرأ فريق صغير مكون من 10 أشخاص فقط على تحدي مكانة عملاق التكنولوجيا ميتا، وهذه ببساطة نسخة واقعية من هزيمة داود لجالوت!

هذه الشركة الناشئة التي تسمى Nous Research ليست شخصًا مجهولًا. تم تحسين جهاز Hermes3 الذي أطلقوه للتو استنادًا إلى طراز 405B من Llama3.1. على الرغم من أن الفريق يضم عددًا صغيرًا من الأشخاص، إلا أنه لا يمكن الاستهانة بقوتهم. نجح هذا الفريق المكون من عشرة أعضاء في ضبط نماذج متعددة مثل Mistral وYi وLlama وما إلى ذلك، وتم تنزيله أكثر من 33 مليون مرة، إنها مجرد آلة رائجة البيع في صناعة الذكاء الاصطناعي!

إن ظهور Hermes3 يشبه طلقة في الذراع في عالم الذكاء الاصطناعي. حتى بعد تكميم FP8، لا يزال أدائه قويًا بشكل مذهل. هذا التحسين لا يقلل بشكل كبير من VRAM ومتطلبات القرص للنموذج فحسب، بل يسمح أيضًا لـ Hermes3 بالعمل على عقدة واحدة، وهو خبر رائع للمطورين!

فيما يتعلق بالقدرة على المحادثة، فإن Hermes3 هو ببساطة شخص متعدد المهارات. سواء كانت الذاكرة طويلة المدى، أو جولات متعددة من الحوار، أو لعب الأدوار، أو المونولوج الداخلي، فإنه يمكنه التعامل معها بسهولة. بفضل نافذة سياق Llama3.1 التي يبلغ طولها 128 كيلو بايت، يعد Hermes3 دبلوماسيًا متمرسًا في الحفاظ على تماسك المحادثات.

لكن قدرات Hermes3 لا تتوقف عند هذا الحد. إنه يوضح مجموعة من الإمكانات المتقدمة التي تتجاوز نمذجة اللغة التقليدية لفهم وتقييم جودة النص الذي تم إنشاؤه بطريقة متطورة ودقيقة. هذا يعني أنه لا يمكن أن يكون متحدثًا فصيحًا فحسب، بل أيضًا ناقدًا صارمًا للنص!

والأمر الأكثر إثارة للدهشة هو أن Hermes3 يدمج أيضًا العديد من قدرات الوكيل، بما في ذلك المخرجات المنظمة، ومخرجات الخطوات الوسيطة، وتوليد المونولوجات الداخلية لتحقيق عملية صنع قرار شفافة. وهذا يشبه تزويد الذكاء الاصطناعي بعقل شفاف، مما يسمح لنا بإلقاء نظرة خاطفة على عملية التفكير فيه.

يمكن تسمية عملية تدريب Hermes3 بالتدريب الشيطاني في عالم الذكاء الاصطناعي. لقد مرت بمرحلتين: الضبط الدقيق تحت الإشراف (SFT) وتحسين التفضيل المباشر (DPO). أمضى الفريق خمسة أشهر كاملة في فحص وبناء مجموعة بيانات SFT، وكان تفانيهم وصبرهم مذهلاً بكل بساطة.

Nous Research، وهي مجموعة أبحاث تطبيقية خاصة تأسست عام 2023 ومقرها في نيويورك، هي ببساطة غازي بربري في عالم الذكاء الاصطناعي. إنهم يؤمنون إيمانًا راسخًا بقوة المصادر المفتوحة ويتعهدون بتحدي قيود الابتكار في التقنيات المغلقة. شعار الشركة شديد اللهجة: نحن نتحدى الافتراض القائل بأن التقنيات المغلقة سوف تحتل دائمًا قمة الابتكار، وبدلاً من ذلك، تقدم كودًا قويًا مفتوح المصدر.

في ما يزيد قليلاً عن عام، أصدرت شركة Nous Research 5 مجموعات بيانات و89 نموذجًا، ويبدو أن هذا الإنتاج العالي يعلن للعالم: الحجم لا يهم، القوة هي الملك!

عنوان الورقة: https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf

المقدمة الرسمية: https://nousresearch.com/freedom-at-the-frontier-hermes-3/

إن نجاح Nous Research وHermes3 لا يثبت قوة المصدر المفتوح فحسب، بل يجلب أيضًا حيوية وإمكانيات جديدة إلى مجال الذكاء الاصطناعي. يمكن للفرق الصغيرة أيضًا إنشاء المعجزات، وهو بلا شك تشجيع كبير لجميع ممارسي الذكاء الاصطناعي. في المستقبل، دعونا ننتظر ونرى النتائج الأكثر إثارة للدهشة التي ستحققها شركة Nous Research.