علم محرر Downcodes أن Tencent أصدرت اليوم نموذج لغة كبير مفتوح المصدر لوزارة التعليم Hunyuan-large، بحجم معلمة 398 بايت وحجم معلمة تنشيط 52 بايت. لقد حقق هذا النموذج أداءً جيدًا في العديد من الاختبارات المعيارية الموثوقة، متجاوزًا Llama3.1 وMixtral وغيرها من المصادر المفتوحة من الدرجة الأولى في تسعة أبعاد رئيسية، بما في ذلك CMMLU وMMLU وCEva1 وMATH وغيرها من مجموعات التقييم الشاملة متعددة التخصصات، بالإضافة إلى الصينية. ومهام البرمجة اللغوية العصبية باللغة الإنجليزية والبرمجة والرياضيات نموذج كبير، يُظهر أداءً قويًا وإمكانات تطبيق واسعة. يكمن الابتكار التكنولوجي لشركة Hunyuan-large في تطبيق البيانات الاصطناعية عالية الجودة، والتي تحل بشكل فعال مشكلة عدم كفاية البيانات الطبيعية وتدعم معالجة تسلسلات نصية تصل إلى 256 كيلو بايت، مما يعزز بشكل كبير قدرات المعالجة لمهام السياق الطويلة.
ومن المفهوم أن هذا النموذج يمكنه تحقيق بيانات تركيبية عالية الجودة من حيث الابتكار التكنولوجي، ومن خلال استخدام البيانات الاصطناعية لتعزيز التدريب، يمكنه التعامل بشكل فعال مع أوجه القصور في البيانات الطبيعية. فيما يتعلق بقدرات معالجة السياق، يدعم النموذج المُدرب مسبقًا تسلسلات نصية تصل إلى 256 كيلو بايت، مما يعزز بشكل كبير القدرة على التعامل مع مهام السياق الطويلة.
في الوقت نفسه، أعلنت Tencent Hunyuan أنه من أجل سد النقص في مجموعات مراجعة النصوص الطويلة الحقيقية في الصناعة، ستفتح Tencent Hunyuan مصدر مجموعة مراجعة Penguin Scroll للمساعدة في أبحاث تطبيقات الصناعة. تعتمد PenguinScrolls ذاتية التطوير على مجموعة متنوعة من النصوص الطبيعية الطويلة مثل المالية العامة والقانون والأوراق الأكاديمية، بنطاق طول يتراوح بين 1K و128K، وتغطي مختلف القراءة المتعمقة والفهم ومهام التفكير المنطقي للنص الطويل.
سيوفر إصدار نموذج اللغة الكبير Tencent Hunyuan والمصدر المفتوح لمجموعة تقييم Penguin Scroll للصناعة نماذج لغوية وأدوات تقييم أكثر قوة، ويعزز تطوير معالجة اللغة الطبيعية والذكاء الاصطناعي.
عنوان الموقع الرسمي: https://llm.hunyuan.tencent.com
لا يوفر المصدر المفتوح لنموذج Hunyuan الكبير من Tencent للمطورين أدوات قوية فحسب، بل يساهم أيضًا في تقدم مجال الذكاء الاصطناعي. سيعمل المصدر المفتوح لمجموعة مراجعة Penguin Scroll على تعزيز تحسين وتطوير تكنولوجيا معالجة النصوص الطويلة. نتطلع إلى المزيد من النتائج المبتكرة في المستقبل!