يقوم فريق OpenBuddy لنماذج اللغات الكبيرة مفتوحة المصدر بإصدار النسخة الصينية من نموذج Llama3.1-8B

الكاتب：Eve Cole وقت التحديث：2024-12-14 09:32:01

أحدث إصدار من Meta لسلسلة Llama 3.1 من النماذج مفتوحة المصدر حقق اختراقات كبيرة في الأداء، كما أن إصدار المعلمة 405B الخاص به يفوق بعض النماذج مغلقة المصدر. من بينها، يدعم إصدار Llama3.1-8B-Instruct لغات متعددة، مع طول سياق يصل إلى 131072 رمزًا مميزًا، ويتم تدريبه باستخدام بيانات تركيبية ضخمة لتحسين قدراته المنطقية في مجالات مثل الكود والرياضيات. وبناءً على هذا النموذج، أطلق فريق OpenBuddy نموذج OpenBuddy-Llama3.1-8B-v22.1-131K الذي يدعم الأسئلة والأجوبة الصينية والترجمة بين اللغات، مما يوضح إمكانات النماذج مفتوحة المصدر في التطبيقات متعددة اللغات.

أصدرت Meta مؤخرًا جيلًا جديدًا من سلسلة النماذج مفتوحة المصدر Llama3.1، والتي تتضمن إصدار معلمة 405B الذي يقترب أداؤه من النماذج مغلقة المصدر أو حتى يفوقها مثل GPT-4 في بعض الاختبارات المعيارية. Llama3.1-8B-Instruct هو إصدار معلمة 8B في السلسلة، يدعم اللغة الإنجليزية والألمانية والفرنسية والإيطالية والبرتغالية والإسبانية والهندية والتايلاندية، وطول السياق يصل إلى 131072 رمزًا، وتم تحديث الموعد النهائي للمعرفة حتى 2023 ديسمبر من العام.

لتعزيز قدرات Llama3.1-8B-Instruct، استخدمت Meta أكثر من 25 مليون قطعة من البيانات الاصطناعية في التدريب، والتي تم إنشاؤها بواسطة نموذج 405B الأكبر. يتيح ذلك لـ Llama3.1-8B-Instruct إظهار قدرات معرفية واستدلالية مماثلة لـ GPT3.5Turbo في الترميز والرياضيات والاختبارات الأخرى.

يستخدم OpenBuddy نموذج Llama3.1-8B-Instruct ويتدرب على كمية صغيرة من البيانات الصينية لإصدار OpenBuddy-Llama3.1-8B-v22.1-131k، وهو جيل جديد مزود بالأسئلة والأجوبة الصينية وقدرات الترجمة بين اللغات. نموذج مفتوح المصدر متعدد اللغات. على الرغم من أن Llama3.1 نفسه لا يتمتع بقدرات صينية، إلا أنه بعد التدريب، أصبح النموذج قادرًا على توليد إجابات لا يمكن أن تولدها عادةً سوى النماذج الأكبر حجمًا على بعض الأسئلة التي تكون عرضة للارتباك المفاهيمي، مما يُظهر إمكانات معرفية أقوى.

ومع ذلك، نظرًا للقيود المفروضة على مجموعة بيانات التدريب والوقت، لا يزال لدى OpenBuddy-Llama3.1-8B-v22.1 قيود في المعرفة الصينية، وخاصة المعرفة الثقافية التقليدية. وعلى الرغم من ذلك، يُظهر النموذج أداءً مستقرًا نسبيًا في مهام مثل فهم النص الطويل، والذي يستفيد من إمكانات النص الطويل الأصلية.

في المستقبل، تخطط OpenBuddy لإجراء تدريب واسع النطاق لنماذج 8B و70B لتعزيز احتياطي المعرفة الصينية للنموذج، والقدرة على النص الطويل والقدرة المعرفية، واستكشاف إمكانية ضبط نموذج 405B.

عنوان المشروع: https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k

يمثل إصدار نموذج OpenBuddy-Llama3.1-8B-v22.1-131k مرحلة جديدة في تطوير النماذج متعددة اللغات مفتوحة المصدر. على الرغم من أنه لا يزال هناك مجال لتحسين المعرفة الصينية، إلا أن إمكاناتها تستحق التطلع إليها. وفي المستقبل، مع توسع نطاق التدريب النموذجي، من المتوقع أن يتم تحسين أدائها بشكل أكبر. نتطلع إلى المزيد من المفاجآت من فريق OpenBuddy في المستقبل.