الموقع | بوصلة | بوصلة رانك | التوثيق | التثبيت | قضايا الإبلاغ
الإنجليزية | 简体中文
انضم إلينا على Discord وWeChat
مهم
ستارنا ، ستتلقى جميع إشعارات الإصدار من GitHub دون أي تأخير ~ ️
إلى البوصلة المفتوحة !
تمامًا كما ترشدنا البوصلة في رحلتنا، سوف يرشدك OpenCompass عبر المشهد المعقد لتقييم نماذج اللغات الكبيرة. بفضل خوارزمياته القوية وواجهته البديهية، يجعل OpenCompass من السهل تقييم جودة وفعالية نماذج البرمجة اللغوية العصبية (NLP).
اكتشف الفرص في OpenCompass! نقوم حاليًا بتعيين باحثين/مهندسين ومتدربين بدوام كامل . إذا كنت شغوفًا بـ LLM وOpenCompass، فلا تتردد في التواصل معنا عبر البريد الإلكتروني. نحن نحب أن نسمع منك!
يسعدنا أن نعلن أن OpenCompass قد تمت التوصية به بواسطة Meta AI ، انقر فوق بدء استخدام Llama لمزيد من المعلومات.
انتباه
إشعار تغيير عاجل: في الإصدار 0.4.0، نقوم بدمج جميع ملفات تكوين AMOTIC (الموجودة مسبقًا في ./configs/datasets و./configs/models و./configs/summarizers) في حزمة البوصلة المفتوحة. يُنصح المستخدمون بتحديث مراجع التكوين الخاصة بهم لتعكس هذا التغيير الهيكلي.
[2024.10.14] نحن ندعم الآن مجموعة بيانات ضمان الجودة متعددة اللغات OpenAI MMMLU. لا تتردد في محاولة إعطائها!
[2024.09.19] نحن ندعم الآن Qwen2.5 (0.5B إلى 72B) مع الواجهة الخلفية المتعددة (huggingface/vllm/lmdeploy). لا تتردد في منحهم المحاولة!
[2024.09.17] نحن ندعم الآن OpenAI o1( o1-mini-2024-09-12
و o1-preview-2024-09-12
). لا تتردد في منحهم المحاولة!
[2024.09.05] نحن ندعم الآن استخراج الإجابات من خلال المعالجة اللاحقة للنموذج لتوفير تمثيل أكثر دقة لإمكانيات النموذج. كجزء من هذا التحديث، قمنا بدمج XFinder كأول نموذج لمرحلة ما بعد المعالجة. لمزيد من المعلومات التفصيلية، يرجى الرجوع إلى الوثائق، ومحاولة إعطائها!
[2024.08.20] يدعم OpenCompass الآن SciCode: معيار ترميز الأبحاث برعاية العلماء.
[2024.08.16] يدعم OpenCompass الآن معيار تقييم نموذج اللغة طويل السياق الجديد تمامًا — RULER. يوفر RULER تقييمًا للسياق الطويل بما في ذلك الاسترجاع والتتبع متعدد القفزات والتجميع والإجابة على الأسئلة من خلال تكوينات مرنة. تحقق من تكوين تقييم RULER الآن!
[2024.08.09] لقد أصدرنا البيانات النموذجية والتكوين لـ CompassBench-202408، مرحبًا بك في CompassBench لمزيد من التفاصيل.
[2024.08.01] لقد دعمنا نماذج Gemma2. مرحبا بكم في المحاولة!
[2024.07.23] لقد دعمنا مجموعات بيانات ModelScope، ويمكنك تحميلها عند الطلب دون تنزيل جميع البيانات على القرص المحلي الخاص بك. مرحبا بكم في المحاولة!
[2024.07.17] يسعدنا أن نعلن عن إصدار التقرير الفني لـ NeedleBench. نحن ندعوك لزيارة وثائق الدعم الخاصة بنا للحصول على إرشادات التقييم التفصيلية.
[2024.07.04] يدعم OpenCompass الآن InternLM2.5، الذي يتمتع بقدرة تفكير متميزة ونافذة سياق 1M واستخدام أقوى للأدوات ، يمكنك تجربة النماذج في OpenCompass Config وInternLM ..
[2024.06.20] يدعم OpenCompass الآن التبديل بنقرة واحدة بين الواجهات الخلفية لتسريع الاستدلال، مما يعزز كفاءة عملية التقييم. بالإضافة إلى الواجهة الخلفية الافتراضية لاستدلال HuggingFace، فإنها تدعم الآن أيضًا الواجهات الخلفية الشائعة LMDeploy وvLLM. تتوفر هذه الميزة عبر مفتاح تبديل سطر أوامر بسيط ومن خلال واجهات برمجة التطبيقات للنشر. للاستخدام التفصيلي، راجع الوثائق..
أكثر
نحن نقدم OpenCompass Leaderboard للمجتمع لتصنيف جميع النماذج العامة ونماذج واجهة برمجة التطبيقات (API). إذا كنت ترغب في الانضمام إلى التقييم، فيرجى تقديم عنوان URL لمستودع النموذج أو واجهة API القياسية إلى عنوان البريد الإلكتروني [email protected]
.
العودة إلى الأعلى
فيما يلي خطوات التثبيت السريع وإعداد مجموعات البيانات.
نوصي بشدة باستخدام conda لإدارة بيئة بايثون الخاصة بك.
conda create --name opencompass python=3.10 -y كوندا تنشيط البوصلة المفتوحة
pip install -U opencompass ## التثبيت الكامل (مع دعم لمزيد من مجموعات البيانات) # pip install "opencompass[full]" ## البيئة مع أطر تسريع النماذج ## إدارة أطر التسريع المختلفة باستخدام البيئات الافتراضية ## نظرًا لأنها عادةً ما يكون لديها تعارضات في التبعية مع بعضها البعض. # تثبيت النقطة "opencompass[lmdeploy]" # تثبيت النقطة "opencompass[vllm]" ## تقييم واجهة برمجة التطبيقات (أي Openai, Qwen) # تثبيت النقطة "opencompass[api]"
إذا كنت ترغب في استخدام أحدث ميزات opencompass، أو تطوير ميزات جديدة، فيمكنك أيضًا إنشائها من المصدر
استنساخ بوابة https://github.com/open-compass/opencompass opencompass cd opencompass تثبيت النقطة -e . # تثبيت النقطة -e ".[كامل]" # تثبيت النقطة -e ".[vllm]"
يمكنك اختيار واحدة للطريقة التالية لإعداد مجموعات البيانات.
يمكنك تنزيل مجموعات البيانات واستخراجها باستخدام الأوامر التالية:
# تنزيل مجموعة البيانات إلى مجلد البيانات/wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip قم بفك ضغط OpenCompassData-core-20240207.zip
لقد دعمنا تنزيل مجموعات البيانات تلقائيًا من خادم تخزين OpenCompass. يمكنك تشغيل التقييم باستخدام --dry-run
إضافي لتنزيل مجموعات البيانات هذه. حاليًا، يتم سرد مجموعات البيانات المدعومة هنا. سيتم تحميل المزيد من مجموعات البيانات مؤخرًا.
كما يمكنك استخدام ModelScope لتحميل مجموعات البيانات حسب الطلب.
تثبيت:
تثبيت النقطة modelscope[framework]export DATASET_SOURCE=ModelScope
ثم أرسل مهمة التقييم دون تنزيل كافة البيانات على القرص المحلي الخاص بك. تشمل مجموعات البيانات المتاحة ما يلي:
Humaneval، triviaqa، commonsenseqa، tydiqa، Strategyqa، cmmlu، lambada، piqa، ceval، math، LCSTS، Xsum، winogrande، openbookqa، AGIEval، gsm8k، nq، Race، siqa، mbpp، mmlu، hellaswag، ARC، BBH، xstory_cloze، سامديتس، جاوكاو-بينش، أوكنلي، كمنلي
قد تتطلب بعض ميزات الجهات الخارجية، مثل Humaneval وLlama، خطوات إضافية لتعمل بشكل صحيح، وللحصول على خطوات تفصيلية، يرجى الرجوع إلى دليل التثبيت.
العودة إلى الأعلى
بعد التأكد من تثبيت OpenCompass بشكل صحيح حسب الخطوات المذكورة أعلاه وإعداد مجموعات البيانات. يمكنك الآن بدء تقييمك الأول باستخدام OpenCompass!
تقييمك الأول مع OpenCompass!
يدعم OpenCompass إعداد التكوينات الخاصة بك عبر CLI أو برنامج نصي python. بالنسبة لإعدادات التقييم البسيطة، نوصي باستخدام واجهة سطر الأوامر (CLI)، أما بالنسبة للتقييم الأكثر تعقيدًا، فيقترح استخدام طريقة البرنامج النصي. يمكنك العثور على المزيد من الأمثلة على البرامج النصية ضمن مجلد التكوينات.
# CLIopencompass --models hf_internlm2_5_1_8b_chat --datasets demo_gsm8k_chat_gen# Python scriptsopencompass ./configs/eval_chat_demo.py
يمكنك العثور على المزيد من أمثلة البرامج النصية ضمن مجلد التكوينات.
تقييم واجهة برمجة التطبيقات
لا يميز OpenCompass، من خلال تصميمه، بين النماذج مفتوحة المصدر ونماذج واجهة برمجة التطبيقات (API). يمكنك تقييم كلا النوعين من النماذج بنفس الطريقة أو حتى في إعداد واحد.
تصدير OPENAI_API_KEY = "YOUR_OPEN_API_KEY"# CLIopencompass --models gpt_4o_2024_05_13 --datasets demo_gsm8k_chat_gen# Python scriptsopencompass ./configs/eval_api_demo.py# يمكنك استخدامه o1_mini_2024_09_12/o1_preview_2024_09_12 بالنسبة لنماذج o1، قمنا بتعيين max_completion_tokens=8192 كإعداد افتراضي.
التقييم المتسارع
بالإضافة إلى ذلك، إذا كنت تريد استخدام واجهة خلفية للاستدلال بخلاف HuggingFace للتقييم السريع، مثل LMDeploy أو vLLM، فيمكنك القيام بذلك باستخدام الأمر أدناه. يرجى التأكد من أنك قمت بتثبيت الحزم اللازمة للواجهة الخلفية المختارة وأن النموذج الخاص بك يدعم الاستدلال المتسارع معها. لمزيد من المعلومات، راجع الوثائق المتعلقة بالواجهات الخلفية لتسريع الاستدلال هنا. فيما يلي مثال لاستخدام LMDeploy:
# CLIopencompass --models hf_internlm2_5_1_8b_chat --datasets demo_gsm8k_chat_gen -a lmdeploy# Python scriptsopencompass ./configs/eval_lmdeploy_demo.py
النماذج المدعومة
يحتوي OpenCompass على تكوينات محددة مسبقًا للعديد من النماذج ومجموعات البيانات. يمكنك إدراج جميع تكوينات النماذج ومجموعة البيانات المتاحة باستخدام الأدوات.
# قائمة بجميع التكويناتأدوات python/list_configs.py# قائمة بجميع التكوينات المتعلقة بأدوات اللاما وmmlupython/list_configs.py llama mmlu
إذا لم يكن النموذج مدرجًا في القائمة ولكنه مدعوم من قبل فئة Huggingface AutoModel، فيمكنك أيضًا تقييمه باستخدام OpenCompass. أنتم مدعوون للمساهمة في صيانة نماذج OpenCompass المدعومة وقوائم مجموعة البيانات.
بوصلة مفتوحة - مجموعات البيانات demo_gsm8k_chat_gen - دردشة من نوع hf - مسار hf internlm/internlm2_5-1_8b-chat
إذا كنت تريد استخدام وحدات معالجة رسومات متعددة لتقييم النموذج بالتوازي مع البيانات، فيمكنك استخدام --max-num-worker
.
CUDA_VISIBLE_DEVICES=0,1 بوصلة مفتوحة --مجموعات البيانات demo_gsm8k_chat_gen --hf-type chat --hf-path internlm/internlm2_5-1_8b-chat --max-num-worker 2
نصيحة
--hf-num-gpus
يُستخدم للنموذج الموازي (تنسيق Huggingface)، --max-num-worker
للبيانات المتوازية.
نصيحة
تم تصميم التكوين باستخدام _ppl
للنموذج الأساسي عادةً. يمكن استخدام التكوين مع _gen
لكل من النموذج الأساسي ونموذج الدردشة.
من خلال سطر الأوامر أو ملفات التكوين، يدعم OpenCompass أيضًا تقييم واجهات برمجة التطبيقات أو النماذج المخصصة، بالإضافة إلى استراتيجيات تقييم أكثر تنوعًا. يرجى قراءة البداية السريعة للتعرف على كيفية تشغيل مهمة التقييم.
العودة إلى الأعلى
يسعدنا أن نقدم OpenCompass 2.0، وهي مجموعة متقدمة تضم ثلاثة مكونات رئيسية: CompassKit، وCompassHub، وCompassRank.
تم تحسين CompassRank بشكل كبير في لوحات المتصدرين التي تتضمن الآن كلاً من معايير المصدر المفتوح ومعايير الملكية. تسمح هذه الترقية بإجراء تقييم أكثر شمولاً للنماذج في جميع أنحاء الصناعة.
يقدم CompassHub واجهة متصفح رائدة، مصممة لتبسيط وتسريع استكشاف واستخدام مجموعة واسعة من المعايير للباحثين والممارسين على حد سواء. لتعزيز رؤية المعيار الخاص بك داخل المجتمع، ندعوك بحرارة للمساهمة به في CompassHub. يمكنك بدء عملية التقديم بالضغط هنا.
CompassKit عبارة عن مجموعة قوية من أدوات التقييم المصممة خصيصًا لنماذج اللغات الكبيرة ونماذج لغة الرؤية الكبيرة. فهو يوفر مجموعة واسعة من الأدوات لتقييم وقياس أداء هذه النماذج المعقدة بشكل فعال. مرحبًا بك لتجربة مجموعة الأدوات الخاصة بنا في أبحاثك ومنتجاتك.
OpenCompass عبارة عن منصة شاملة لتقييم النماذج الكبيرة، تهدف إلى توفير معيار عادل ومفتوح وقابل للتكرار لتقييم النماذج الكبيرة. وتشمل ميزاته الرئيسية ما يلي:
دعم شامل للنماذج ومجموعات البيانات : الدعم المسبق لأكثر من 20 نموذجًا من نماذج HuggingFace وAPI، وهو مخطط تقييم نموذجي يضم أكثر من 70 مجموعة بيانات مع حوالي 400000 سؤال، وتقييم شامل لقدرات النماذج في خمسة أبعاد.
التقييم الموزع الفعال : أمر سطر واحد لتنفيذ تقسيم المهام والتقييم الموزع، واستكمال التقييم الكامل للنماذج ذات المليارات في غضون ساعات قليلة.
نماذج تقييم متنوعة : دعم التقييمات ذات اللقطات الصفرية والقليلة والتقييمات المتسلسلة للأفكار، جنبًا إلى جنب مع قوالب سريعة قياسية أو من نوع الحوار، لتحفيز الحد الأقصى من أداء النماذج المختلفة بسهولة.
تصميم وحدات مع قابلية توسعة عالية : هل ترغب في إضافة نماذج أو مجموعات بيانات جديدة، أو تخصيص إستراتيجية متقدمة لتقسيم المهام، أو حتى دعم نظام جديد لإدارة المجموعة؟ كل شيء يتعلق بـ OpenCompass يمكن توسيعه بسهولة!
إدارة التجارب وآلية إعداد التقارير : استخدم ملفات التكوين لتسجيل كل تجربة بشكل كامل، ودعم الإبلاغ عن النتائج في الوقت الفعلي.
لغة | معرفة | المنطق | فحص |
تعريف الكلمة
تعلم المصطلح
التشابه الدلالي
القرار المرجعي
ترجمة
متعدد اللغات سؤال الإجابة
ملخص متعدد اللغات
| إجابة سؤال المعرفة
| المضمون النصي
المنطق السليم
المنطق الرياضي
تطبيق النظرية
الاستدلال الشامل
| الإعدادية، المدرسة الثانوية، الجامعة، الامتحانات المهنية
الفحوصات الطبية
|
فهم | سياق طويل | أمان | شفرة |
فهم القراءة
ملخص المحتوى
تحليل المحتوى
| فهم السياق الطويل
| أمان
المتانة
| شفرة
|
نماذج مفتوحة المصدر | نماذج واجهة برمجة التطبيقات |
|
|
العودة إلى الأعلى
التقييم الذاتي
الافراج عن CompassAreana.
التقييم الذاتي.
سياق طويل
تقييم سياق طويل مع مجموعات بيانات واسعة النطاق.
لوحة المتصدرين ذات السياق الطويل.
الترميز
لوحة المتصدرين لتقييم الترميز.
خدمة تقييم لغة غير بايثون.
عامل
دعم أطر الوكيل المختلفة.
تقييم استخدام أداة LLMs.
المتانة
دعم أساليب الهجوم المختلفة.
نحن نقدر كل المساهمات في تحسين OpenCompass. يرجى الرجوع إلى المبادئ التوجيهية المساهمة للحصول على أفضل الممارسات.
تم الاستشهاد ببعض التعليمات البرمجية في هذا المشروع وتعديلها من OpenICL.
يتم تعديل بعض مجموعات البيانات والتطبيقات الفورية من مركز سلسلة الأفكار وتقييم التعليمات.
@misc{2023opencompass, title={OpenCompass: منصة تقييم عالمية لنماذج الأساس}، المؤلف={OpenCompass Contributors}، howpublished = {url{https://github.com/open-compass/opencompass}}، year={ 2023}}
العودة إلى الأعلى