تنزيل awesome foundation model leaderboards - تنزيل كود مصدر awesome foundation model leaderboards

لوحة المتصدرين النموذجية الرائعة

Awesome Foundation Model Leaderboard عبارة عن قائمة منسقة من لوحات المتصدرين الرائعة للنماذج الأساسية (للحصول على شرح حول ماهية لوحة المتصدرين، يرجى الرجوع إلى هذا البرنامج التعليمي)، إلى جانب أدوات التطوير المختلفة ومنظمات التقييم وفقًا لاستطلاعنا:

حول سير العمل ورائحة عمليات المتصدرين (LBOps):
دراسة استكشافية للوحات المتصدرين النموذجية التأسيسية

جيمين (جيمي) تشاو، عبد العلي بانغاش، فيليبي روزيرو كوغو، برام آدامز، أحمد حسن

مختبر تحليل وذكاء البرمجيات (SAIL)

إذا وجدت هذا المستودع مفيدًا، فيرجى التفكير في منحنا نجمة واقتباسًا:

 @article{zhao2024workflows,
  title={On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards},
  author={Zhao, Zhimin and Bangash, Abdul Ali and C{^o}go, Filipe Roseiro and Adams, Bram and Hassan, Ahmed E},
  journal={arXiv preprint arXiv:2407.04065},
  year={2024}
}

بالإضافة إلى ذلك، نقدم مجموعة أدوات بحث تساعدك على التنقل بسرعة عبر لوحات الصدارة.

إذا كنت تريد المساهمة في هذه القائمة (يُرجى القيام بذلك)، فنحن نرحب بك لاقتراح طلب سحب.

إذا كان لديك أي اقتراحات أو انتقادات أو أسئلة بخصوص هذه القائمة، فنحن نرحب بإثارة مشكلة.

أيضًا، يجب تضمين لوحة المتصدرين في الحالات التالية فقط:

يتم صيانته بنشاط.
يتعلق الأمر بنماذج الأساس.

جدول المحتويات

أدوات
التحديات
التصنيفات
- تصنيف النموذج
  - شامل
  - نص
  - صورة
  - شفرة
  - فيديو
  - الرياضيات
  - عامل
  - صوتي
  - 3D
  - متعدد الوسائط
- تصنيف قاعدة البيانات
- تصنيف مجموعة البيانات
- الترتيب المتري
- تصنيف الورق
- تصنيف المتصدرين

أدوات

اسم	وصف
لوحة المتصدرين التجريبية	تساعد لوحة المتصدرين التجريبية المستخدمين على نشر لوحات المتصدرين الخاصة بهم بسهولة باستخدام قالب موحد.
الخلفية التجريبية للمتصدرين	تساعد الواجهة الخلفية للوحة المتصدرين التجريبية المستخدمين على إدارة لوحة المتصدرين والتعامل مع طلبات الإرسال، تحقق من ذلك للحصول على التفاصيل.
إنشاء مسابقة Kaggle	يمكّنك Kaggle Competition Creation من تصميم وإطلاق مسابقات مخصصة، والاستفادة من مجموعات البيانات الخاصة بك لإشراك مجتمع علوم البيانات.
مستكشف المتصدرين	يساعد Leaderboard Explorer المستخدمين على التنقل بين مجموعة متنوعة من لوحات المتصدرين المتوفرة على Hugging Face Spaces.
افتح LLM Leaderboard Renamer	يساعد open-llm-leaderboard-renamer المستخدمين على إعادة تسمية نماذجهم في Open LLM Leaderboard بسهولة.
افتح النتائج الافتتاحية للعلاقات العامة في LLM Leaderboard	نتائج Open LLM Leaderboard PR Opener تساعد المستخدمين على عرض نتائج Open LLM Leaderboard في بطاقات النماذج الخاصة بهم.
افتح مكشطة لوحة المتصدرين LLM	يساعد Open LLM Leaderboard Scraper المستخدمين على استخراج البيانات وتصديرها من Open LLM Leaderboard.
تعقب التقدم	يتصور هذا التطبيق التقدم الذي أحرزته LLMs المملوكة والمفتوحة المصدر بمرور الوقت كما تم تسجيله بواسطة LMSYS Chatbot Arena.

التحديات

اسم	وصف
حشد	تستضيف AIcrowd تحديات ومسابقات التعلم الآلي عبر مجالات مثل رؤية الكمبيوتر، والبرمجة اللغوية العصبية، والتعلم المعزز، والتي تستهدف الباحثين والممارسين على حد سواء.
مركز الذكاء الاصطناعي	يقدم AI Hub مجموعة متنوعة من المسابقات لتشجيع حلول الذكاء الاصطناعي لمشاكل العالم الحقيقي، مع التركيز على الابتكار والتعاون.
استوديو الذكاء الاصطناعي	يقدم AI Studio مسابقات الذكاء الاصطناعي بشكل أساسي لرؤية الكمبيوتر، والبرمجة اللغوية العصبية، وغيرها من المهام المعتمدة على البيانات، مما يسمح للمستخدمين بتطوير وعرض مهارات الذكاء الاصطناعي الخاصة بهم.
معهد ألين للذكاء الاصطناعي	يوفر معهد Allen للذكاء الاصطناعي لوحات الصدارة والمعايير حول المهام في فهم اللغة الطبيعية والتفكير المنطقي ومجالات أخرى في أبحاث الذكاء الاصطناعي.
كودابنش	Codabench عبارة عن منصة مفتوحة المصدر لقياس نماذج الذكاء الاصطناعي، مما يتيح تحديات قابلة للتخصيص يقودها المستخدم عبر مجالات الذكاء الاصطناعي المختلفة.
نافورة البيانات	DataFountain هي منصة منافسة صينية تعمل بالذكاء الاصطناعي وتتميز بالتحديات في مجالات التمويل والرعاية الصحية والمدن الذكية، وتشجع الحلول للمشاكل المتعلقة بالصناعة.
DrivenData	تستضيف DrivenData تحديات التعلم الآلي ذات التأثير الاجتماعي، بهدف حل المشكلات في مجالات مثل الصحة العامة والإغاثة في حالات الكوارث والتنمية المستدامة.
دينابينش	تقدم Dynabench معايير ديناميكية حيث يتم تقييم النماذج بشكل مستمر، وغالبًا ما تتضمن تفاعلًا بشريًا، لضمان القوة في مهام الذكاء الاصطناعي المتطورة.
إيفال منظمة العفو الدولية	EvalAI هي عبارة عن منصة لاستضافة تحديات الذكاء الاصطناعي والمشاركة فيها، ويستخدمها الباحثون على نطاق واسع لقياس النماذج في المهام، مثل تصنيف الصور والبرمجة اللغوية العصبية والتعلم المعزز.
التحدي الكبير	يوفر Grand Challenge منصة لتحديات التصوير الطبي، ودعم التقدم في الذكاء الاصطناعي الطبي، خاصة في مجالات مثل الأشعة وعلم الأمراض.
هيلتي	تستضيف Hilti تحديات تهدف إلى تطوير الذكاء الاصطناعي والتعلم الآلي في صناعة البناء والتشييد، مع التركيز على التطبيقات العملية ذات الصلة بالصناعة.
انسايتفيس	تركز InsightFace على تحديات الذكاء الاصطناعي المتعلقة بالتعرف على الوجوه والتحقق منها وتحليلها، ودعم التقدم في التحقق من الهوية والأمن.
كاجل	تعد Kaggle واحدة من أكبر المنصات لمسابقات علوم البيانات والتعلم الآلي، وتغطي مجموعة واسعة من المواضيع بدءًا من تصنيف الصور وحتى البرمجة اللغوية العصبية (NLP) والنمذجة التنبؤية.
nuScenes	تتيح nuScenes للباحثين دراسة مواقف القيادة الصعبة في المناطق الحضرية باستخدام مجموعة أجهزة الاستشعار الكاملة لسيارة ذاتية القيادة حقيقية، مما يسهل البحث في مجال القيادة الذاتية.
مسابقة القراءة القوية	تشير القراءة القوية إلى مجال البحث الخاص بتفسير التواصل المكتوب في إعدادات غير مقيدة، مع مسابقات تركز على التعرف على النص في بيئات العالم الحقيقي.
تيانشي	تقدم Tianchi، التي تستضيفها Alibaba، مجموعة من مسابقات الذكاء الاصطناعي، التي تحظى بشعبية خاصة في آسيا، مع التركيز على التجارة والرعاية الصحية والخدمات اللوجستية.

تصنيف النموذج

شامل

اسم	وصف
التحليل الاصطناعي	التحليل الاصطناعي عبارة عن منصة لمساعدة المستخدمين على اتخاذ قرارات مستنيرة بشأن اختيار نماذج الذكاء الاصطناعي ومقدمي خدمات الاستضافة.
بوصلة	CompassRank عبارة عن منصة لتقديم مرجع تقييم شامل وموضوعي ومحايد لأدوات الأساس للصناعة والبحث.
FlagEval	FlagEval عبارة عن منصة شاملة لتقييم نماذج الأساس.
لوحات المتصدرين لمنظمة العفو الدولية	تقوم Geneative AI Leaderboard بتصنيف نماذج الذكاء الاصطناعي التوليدية الأفضل أداءً بناءً على مقاييس مختلفة.
التقييم الشامل لنماذج اللغة	التقييم الشامل لنماذج اللغة (HELM) هو إطار قابل للتكرار وشفاف لتقييم النماذج الأساسية.
أوراق مع رمز	توفر Papers With Code لوحات متصدرين ومعايير مرجعية مفتوحة المصدر، وتربط أوراق بحث الذكاء الاصطناعي بالرمز لتعزيز الشفافية وإمكانية التكرار في التعلم الآلي.
سوبر كلو	SuperCLUE عبارة عن سلسلة من المعايير لتقييم نماذج الأساس الصينية.
لوحة المتصدرين Vellum LLM	يُظهر Vellum LLM Leaderboard مقارنة بين الإمكانات والسعر ونافذة السياق لبرامج LLM التجارية والمفتوحة المصدر الرائدة.

نص

اسم	وصف
كلو	ACLUE هو معيار تقييم لفهم اللغة الصينية القديمة.
اللغات الأفريقية LLM تقييم المتصدرين	يقوم برنامج African Languages LLM Eval Leaderboard بتتبع التقدم وتصنيف أداء LLMs في اللغات الأفريقية.
AgentBoard	يعد AgentBoard معيارًا مرجعيًا لوكلاء LLM متعددي المنعطفات، ويكمله مجلس تقييم تحليلي لتقييم النموذج التفصيلي بما يتجاوز معدلات النجاح النهائية.
AGIEval	AGIEval هو معيار يتمحور حول الإنسان لتقييم القدرات العامة للنماذج الأساسية في المهام ذات الصلة بالإدراك البشري وحل المشكلات.
آييرا المتصدرين	تقوم Aiera Leaderboard بتقييم أداء LLM في مهام الذكاء المالي، بما في ذلك تعيينات المتحدث، وتحديد تغيير المتحدث، والتلخيصات المجردة، والأسئلة والأجوبة القائمة على الحسابات، ووضع علامات على المشاعر المالية.
مقعد الهواء	يعد AIR-Bench معيارًا لتقييم قدرات استرجاع المعلومات غير المتجانسة لنماذج اللغة.
لوحة المتصدرين لدرجات الطاقة بالذكاء الاصطناعي	يقوم AI Energy Score Leaderboard بتتبع النماذج المختلفة في كفاءة استخدام الطاقة ومقارنتها.
معايير الذكاء الاصطناعي	تحتوي معايير الذكاء الاصطناعي على عدد قليل من نتائج التقييم لزمن الاستجابة لخدمات الذكاء الاصطناعي الشائعة.
AlignBench	يعد AlignBench معيارًا متعدد الأبعاد لتقييم محاذاة LLMs باللغة الصينية.
AlpacaEval	AlpacaEval هو مقيم تلقائي مصمم لماجستير إدارة الأعمال الذي يتبع التعليمات.
أنغو	ANGO هو معيار تقييم نموذج اللغة الصينية الموجه نحو الأجيال.
لوحة المتصدرين للرموز العربية	تقارن لوحة المتصدرين العربية Tokenizers كفاءة LLMs في تحليل اللغة العربية بلهجاتها وأشكالها المختلفة.
ارينا-هارد-أوتو	يعد Arena-Hard-Auto معيارًا قياسيًا لبرامج LLM المضبوطة للتعليمات.
سباق السيارات	يركز AutoRace على التقييم المباشر لسلاسل الاستدلال LLM باستخدام AutoRace المتري (تقييم سلسلة الاستدلال الآلي).
ساحة السيارات	يعد Auto Arena معيارًا يشارك فيه وكلاء نماذج اللغة المختلفة في معارك بين الأقران لتقييم أدائهم.
لصناعة السيارات في J	يستضيف Auto-J نتائج التقييم بشأن مقارنة الاستجابة الزوجية ومهام توليد النقد.
بابيلونج	يعد BABILong معيارًا لتقييم أداء النماذج اللغوية في معالجة المستندات الطويلة بشكل تعسفي مع الحقائق الموزعة.
ببل	BBL (BIG-bench Lite) هي مجموعة فرعية صغيرة مكونة من 24 مهمة JSON متنوعة من BIG-bench. لقد تم تصميمه لتوفير مقياس أساسي لأداء النموذج، في حين أنه أرخص بكثير في التقييم من المجموعة الكاملة التي تضم أكثر من 200 مهمة برمجية ومهام JSON في BIG-bench.
كن صادقا	BeHonest هو معيار لتقييم الصدق - الوعي بحدود المعرفة (المعرفة الذاتية)، وتجنب الخداع (عدم الخداع)، والاتساق في الاستجابات (الاتساق) - في LLMs.
بنبينش	يعد BenBench معيارًا لتقييم مدى قيام LLM بإجراء تدريب حرفي على مجموعة التدريب الخاصة بالمعيار عبر مجموعة الاختبار لتعزيز القدرات.
BenCzechMark	يعد BenCzechMark (BCM) معيارًا متعدد المهام ومتعدد المقاييس للغة التشيكية لمجالس LLM مع نظام تسجيل فريد يستخدم نظرية الأهمية الإحصائية.
مقعد BiGGen	يعد BiGGen-Bench معيارًا شاملاً لتقييم LLMs عبر مجموعة واسعة من المهام.
بوت شات	يعد BotChat معيارًا لتقييم إمكانات الدردشة متعددة الجولات لـ LLMs من خلال مهمة وكيل.
قانون القضاءQA	يعد CaselawQA معيارًا يشتمل على مهام التصنيف القانوني المستمدة من قواعد البيانات القانونية للمحكمة العليا ومحكمة الاستئناف في سونجر.
CFLUE	يعد CFLUE معيارًا لتقييم قدرات الفهم والمعالجة لدى LLM في المجال المالي الصيني.
Ch3Ef	يعد Ch3Ef معيارًا لتقييم التوافق مع التوقعات البشرية باستخدام 1002 عينة مشروحة بشريًا عبر 12 مجالًا و46 مهمة استنادًا إلى مبدأ hhh.
مركز سلسلة الفكر	يعد Chain-of-Thought Hub معيارًا لتقييم قدرات التفكير لدى LLMs.
ساحة الدردشة	تستضيف Chatbot Arena ساحة chatbot حيث يتنافس العديد من حاملي شهادات LLM على أساس رضا المستخدم.
كيمبينش	يعد ChemBench معيارًا لتقييم المعرفة الكيميائية وقدرات التفكير لدى طلاب LLM.
الصينية SimpleQA	يعد SimpleQA الصيني معيارًا صينيًا لتقييم القدرة الواقعية لنماذج اللغة على الإجابة على الأسئلة القصيرة.
كليم المتصدرين	CLEM هو إطار عمل مصمم للتقييم المنهجي لـ LLMs المحسّنة للدردشة كوكلاء محادثة.
كليفا	يعد CLEVA معيارًا لتقييم ماجستير إدارة الأعمال في 31 مهمة باستخدام 370 ألف استعلام صيني من 84 مجموعة بيانات متنوعة و9 مقاييس.
المتصدرين النموذج الصيني الكبير	تعد لوحة المتصدرين للنموذج الصيني الكبير عبارة عن منصة لتقييم أداء حاملي شهادات LLM الصينية.
CMB	CMB هو معيار طبي متعدد المستويات باللغة الصينية.
CMMLU	يعد CMMLU معيارًا لتقييم أداء LLMs في مواضيع مختلفة ضمن السياق الثقافي الصيني.
CMMMU	يعد CMMMU معيارًا لتقييم LMMs في المهام التي تتطلب المعرفة بالموضوع على مستوى الكلية والتفكير المتعمد في السياق الصيني.
كومونجين	يعد CommonGen معيارًا لتقييم المنطق المنطقي التوليدي من خلال اختبار الآلات لقدرتها على تكوين جمل متماسكة باستخدام مجموعة معينة من المفاهيم الشائعة.
كومميكس	يعد CompMix معيارًا للإجابة على الأسئلة غير المتجانسة.
لوحة المتصدرين لمعدل الضغط	تهدف لوحة المتصدرين لمعدل الضغط إلى تقييم أداء أداة الرمز المميز بلغات مختلفة.
ضغط المتصدرين	Compression Leaderboard عبارة عن منصة لتقييم أداء الضغط لـ LLMs.
كوبيبنش	يعد CopyBench معيارًا لتقييم سلوك النسخ وفائدة نماذج اللغة بالإضافة إلى فعالية الطرق للتخفيف من مخاطر حقوق الطبع والنشر.
CoTaEval	يعد CoTaEval معيارًا لتقييم الجدوى والآثار الجانبية لطرق إزالة حقوق الطبع والنشر لـ LLMs.
تحويل	يعد ConvRe معيارًا لتقييم قدرة LLMs على فهم العلاقات العكسية.
CriticEval	يعد CriticEval معيارًا لتقييم قدرة LLMs على تقديم استجابات نقدية.
CS-مقعد	يعد CS-Bench معيارًا ثنائي اللغة مصممًا لتقييم أداء ماجستير إدارة الأعمال عبر 26 مجالًا فرعيًا لعلوم الكمبيوتر، مع التركيز على المعرفة والتفكير.
لطيف	CUTE هو معيار لاختبار المعرفة الإملائية للماجستير في القانون.
سايبرمتري	يعد CyberMetric معيارًا لتقييم معرفة طلاب LLM في مجال الأمن السيبراني.
تشيكبينش	يعد CzechBench معيارًا لتقييم نماذج اللغة التشيكية.
ج-التقييم	C-Eval عبارة عن مجموعة تقييم صينية لدرجة الماجستير في القانون.
لوحة المتصدرين في الساحة اللامركزية	تستضيف Decentralized Arena منصة لا مركزية وديمقراطية لتقييم LLM، وأتمتة التقييمات وتوسيع نطاقها عبر أبعاد متنوعة يحددها المستخدم، بما في ذلك الرياضيات والمنطق والعلوم.
DecodingTrust	DecodingTrust عبارة عن منصة لتقييم مدى مصداقية LLMs.
المجال LLM المتصدرين	Domain LLM Leaderboard عبارة عن منصة لتقييم شعبية LLMs الخاصة بالمجال.
المتصدرين سيناريوهات المؤسسة	يقوم برنامج Enterprise Scenarios Leaderboard بتتبع وتقييم أداء LLMs في حالات استخدام المؤسسات في العالم الحقيقي.
EQ-مقعد	يعد EQ-Bench معيارًا لتقييم جوانب الذكاء العاطفي في LLMs.
المتصدرين LLM الأوروبي	يقوم برنامج LLM Leaderboard الأوروبي بتتبع ومقارنة أداء LLMs باللغات الأوروبية.
EvalGPT.ai	يستضيف موقع EvalGPT.ai ساحة الدردشة الآلية لمقارنة أداء LLMs وتصنيفه.
إيفال أرينا	يقيس Eval Arena مستويات الضوضاء وجودة النموذج وجودة المعيار من خلال مقارنة أزواج النماذج عبر العديد من معايير تقييم LLM مع التحليل على مستوى المثال والمقارنات الزوجية.
المتصدرين الواقعية	تقوم لوحة المتصدرين الواقعية بمقارنة القدرات الواقعية لـ LLMs.
FanOutQA	يعد FanOutQA معيارًا عالي الجودة ومتعدد القفزات ومتعدد المستندات لمجالس LLM التي تستخدم ويكيبيديا الإنجليزية كقاعدة معرفية لها.
FastEval	FastEval عبارة عن مجموعة أدوات للتقييم السريع لنماذج لغة الدردشة ومتابعة التعليمات وفقًا لمعايير مختلفة مع استنتاج سريع ورؤى تفصيلية عن الأداء.
فيلم	FELM هو معيار وصفي لتقييم معيار تقييم الواقع لـ LLMs.
FinEval	يعد FinEval معيارًا لتقييم المعرفة بالمجال المالي في LLMs.
ضبط المتصدرين	إن لوحة الضبط الدقيق عبارة عن منصة لتصنيف وعرض النماذج التي تم ضبطها بدقة باستخدام مجموعات البيانات أو الأطر مفتوحة المصدر.
النيران	يعد Flames معيارًا صينيًا شديد الخصومة لتقييم توافق قيمة LLMs عبر العدالة والسلامة والأخلاق والشرعية وحماية البيانات.
FollowBench	FollowBench عبارة عن قيود دقيقة متعددة المستويات تتبع المعيار لتقييم قدرة اتباع التعليمات لـ LLMs.
مجموعة بيانات الأسئلة المحظورة	تعد مجموعة بيانات الأسئلة المحظورة بمثابة معيار يحتوي على 160 سؤالًا من 160 فئة منتهكة، مع أهداف مقابلة لتقييم طرق كسر الحماية.
استعراض الصمامات	يهدف FuseReviews إلى تطوير مهام إنشاء النص، بما في ذلك الإجابة على الأسئلة الطويلة والتلخيص.
غايا	تهدف GAIA إلى اختبار القدرات الأساسية التي يجب أن يمتلكها مساعد الذكاء الاصطناعي.
جافي	GAVIE هو معيار بمساعدة GPT-4 لتقييم الهلوسة في LMMs من خلال تسجيل الدقة والملاءمة دون الاعتماد على الحقيقة الأرضية المشروحة من قبل الإنسان.
GPT-فهم	GPT-Fathom عبارة عن مجموعة تقييم LLM، تقيس أكثر من 10 من LLMs الرائدة بالإضافة إلى نماذج OpenAI القديمة على أكثر من 20 معيارًا منسقًا عبر 7 فئات للقدرات، كل ذلك ضمن إعدادات متوافقة.
GrailQA	تعد الإجابة على الأسئلة القابلة للتعميم بقوة (GrailQA) معيارًا واسع النطاق وعالي الجودة للإجابة على الأسئلة على قواعد المعرفة (KBQA) على Freebase مع 64331 سؤالًا مشروحًا بكل من الإجابات والأشكال المنطقية المقابلة في تركيب مختلف (على سبيل المثال، SPARQL، S-expression ، إلخ.).
GTBench	يعد GTBench معيارًا لتقييم وتصنيف قدرات التفكير لدى LLMs في البيئات التنافسية من خلال المهام النظرية للعبة، على سبيل المثال، ألعاب الطاولة والورق.
Guerra LLM AI المتصدرين	Guerra LLM AI Leaderboard يقارن ويصنف أداء LLMs عبر الجودة والسعر والأداء ونافذة السياق وغيرها.
الهلوسة المتصدرين	تهدف لوحة المتصدرين للهلوسة إلى تتبع وتصنيف وتقييم الهلوسة في LLMs.
HalluQA	HalluQA هو معيار لتقييم ظاهرة الهلوسة في LLMs الصينية.
لوحة المتصدرين LLM العبرية	تقوم لوحة المتصدرين LLM العبرية بتتبع نماذج اللغة وتصنيفها وفقًا لنجاحها في المهام المختلفة باللغة العبرية.
هيلاسواج	يعد HellaSwag معيارًا لتقييم المنطق المنطقي في LLMs.
هيوز نموذج تقييم الهلوسة المتصدرين	تعد لوحة المتصدرين لنموذج تقييم الهلوسة من Hughes عبارة عن منصة لتقييم عدد المرات التي يقدم فيها نموذج اللغة الهلوسة عند تلخيص مستند.
المتصدرين LLM الأيسلندية	تتتبع لوحة المتصدرين الأيسلندية LLM وتقارن النماذج في مهام اللغة الأيسلندية.
IFEval	يعد IFEval معيارًا لتقييم قدرات اتباع تعليمات LLM بتعليمات يمكن التحقق منها.
إيل-تور	يعد IL-TUR معيارًا لتقييم النماذج اللغوية في المهام أحادية اللغة ومتعددة اللغات التي تركز على الفهم والتفكير في المستندات القانونية الهندية.
المتصدرين LLM الهندية	Indic LLM Leaderboard عبارة عن منصة لتتبع ومقارنة أداء Indic LLMs.
إنديكو LLM المتصدرين	يقوم Indico LLM Leaderboard بتقييم ومقارنة دقة نماذج اللغة المختلفة عبر مقدمي الخدمة ومجموعات البيانات والإمكانيات مثل تصنيف النص واستخراج المعلومات الأساسية والتلخيص التوليدي.
InstructEval	InstructEval عبارة عن مجموعة لتقييم طرق اختيار التعليمات في سياق LLMs.
الإيطالية LLM-المتصدرين	يتتبع برنامج LLM-Leaderboard الإيطالي ويقارن بين LLMs في مهام اللغة الإيطالية.
جيلبريكبينش	JailbreakBench هو معيار لتقييم نقاط الضعف في LLM من خلال المطالبات العدائية.
ساحة Chatbot اليابانية	تستضيف ساحة Chatbot اليابانية ساحة Chatbot، حيث يتنافس العديد من حاملي شهادات LLM بناءً على أدائهم باللغة اليابانية.
نموذج اللغة اليابانية لأداة التقييم المالي	أداة التقييم المالي لنموذج اللغة اليابانية هي أداة لتقييم نموذج اللغة اليابانية في المجال المالي.
معيار لعب الأدوار LLM الياباني	يعد معيار لعب الأدوار LLM الياباني معيارًا لتقييم أداء حاملي LLM اليابانيين في لعب الأدوار الشخصية.
JMED-LLM	JMED-LLM (مجموعة بيانات التقييم الطبي الياباني لنماذج اللغات الكبيرة) هي معيار لتقييم LLMs في المجال الطبي باللغة اليابانية.
JMMMU	JMMMU (اليابانية MMMU) هو معيار متعدد الوسائط لتقييم أداء LMM باللغة اليابانية.
JustEval	JustEval هي أداة قوية مصممة للتقييم الدقيق لبرامج LLM.
كولا	يعد KoLA معيارًا لتقييم المعرفة العالمية بمجال LLM.
خروف	يعد LaMP (تخصيص نماذج اللغة) معيارًا لتقييم قدرات التخصيص لنماذج اللغة.
مجلس نموذج اللغة	يعد مجلس نموذج اللغة (LMC) معيارًا لتقييم المهام التي تكون ذاتية للغاية وغالبًا ما تفتقر إلى اتفاق الأغلبية البشرية.
LawBench	يعد LawBench معيارًا لتقييم القدرات القانونية لـ LLMs.
لا المتصدرين	يقوم La Leaderboard بتقييم وتتبع حفظ LLM والاستدلال والقدرات اللغوية في إسبانيا وأمريكا اللاتينية ومنطقة البحر الكاريبي.
LogicKor	LogicKor هو معيار لتقييم قدرات التفكير متعدد التخصصات لحاملي LLM الكوريين.
LongICL المتصدرين	LongICL Leaderboard عبارة عن منصة لتقييم تقييمات التعلم الطويلة في السياق لـ LLMs.
لوجلي	يعد LooGLE معيارًا لتقييم قدرات فهم السياق الطويل لمجالات LLM.
لايو	LAiW هو معيار لتقييم فهم اللغة القانونية الصينية واستدلالها.
مجموعة LLM Benchmarker	يعد LLM Benchmarker Suite معيارًا لتقييم القدرات الشاملة لـ LLMs.
تقييم نموذج اللغة الكبير في سياقات اللغة الإنجليزية	يعد تقييم نموذج اللغة الكبير في سياقات اللغة الإنجليزية بمثابة منصة لتقييم LLMs في سياق اللغة الإنجليزية.
تقييم نموذج اللغة الكبير في السياق الصيني	يعد تقييم نموذج اللغة الكبير في السياق الصيني بمثابة منصة لتقييم LLMs في السياق الصيني.
الميزان	يعد LIBRA معيارًا لتقييم قدرات LLMs في فهم ومعالجة النصوص الروسية الطويلة.
LibrAI-Eval GenAI المتصدرين	يركز LibrAI-Eval GenAI Leaderboard على التوازن بين قدرة LLM والسلامة في اللغة الإنجليزية.
لايف بنش	يعد LiveBench معيارًا لـ LLMs لتقليل تلوث مجموعة الاختبار وتمكين التقييم الموضوعي والآلي عبر مهام متنوعة يتم تحديثها بانتظام.
LLMval	يعد LLMEval معيارًا لتقييم جودة محادثات المجال المفتوح مع LLMs.
Llmeval-Gaokao2024-Math	Llmeval-Gaokao2024-Math هو معيار لتقييم LLMs في مسائل الرياضيات على مستوى Gaokao لعام 2024 باللغة الصينية.
LLMالهلوسة المتصدرين	تقوم لوحة المتصدرين للهلوسة بتقييم LLMs بناءً على مجموعة من المعايير المتعلقة بالهلوسة.
LLMperf	LLMPerf هي أداة لتقييم أداء LLMs باستخدام اختبارات التحميل والصحة.
LLMs لوحة المتصدرين للتنبؤ بمخاطر الأمراض	لوحة المتصدرين للتنبؤ بمخاطر الأمراض LLM هي عبارة عن منصة لتقييم LLMs حول التنبؤ بمخاطر الأمراض.
LLM المتصدرين	يقوم LLM Leaderboard بتتبع مقدمي خدمات LLM وتقييمهم، مما يتيح اختيار واجهة برمجة التطبيقات والنموذج الأمثل لاحتياجات المستخدم.
LLM المتصدرين لإدارة علاقات العملاء	تعد CRM LLM Leaderboard عبارة عن منصة لتقييم فعالية LLMs لتطبيقات الأعمال.
مرصد LLM	يعد مرصد LLM معيارًا يقوم بتقييم وتصنيف LLMs بناءً على أدائهم في تجنب التحيزات الاجتماعية عبر فئات مثل التوجه LGBTIQ + والعمر والجنس والسياسة والعرق والدين وكراهية الأجانب.
لوحة المتصدرين لأسعار LLM	LLM Price Leaderboard يتتبع ويقارن تكاليف LLM على أساس مليون رمز مميز.
تصنيفات LLM	تقدم تصنيفات LLM مقارنة في الوقت الفعلي لنماذج اللغة بناءً على الاستخدام المميز للرمز المميز للمطالبات والإكمالات، ويتم تحديثها بشكل متكرر.
LLM لعب الأدوار المتصدرين	تقوم LLM roleplay Leaderboard بتقييم الأداء البشري وأداء الذكاء الاصطناعي في لعبة المستذئب الاجتماعية لتطوير الشخصيات غير القابلة للعب.
LLM المتصدرين السلامة	يهدف LLM Safety Leaderboard إلى توفير تقييم موحد لسلامة نماذج اللغة.
LLM استخدام حالة المتصدرين	LLM Use Case Leaderboard يتتبع ويقيم LLMs في حالات استخدام الأعمال.
LLM-AggreFact	LLM-AggreFact هو معيار للتحقق من الحقائق يجمع أحدث مجموعات البيانات المتاحة للجمهور بناءً على تقييم الحقائق المرتكز.
LLM-المتصدرين	LLM-Leaderboard هو جهد مجتمعي مشترك لإنشاء لوحة صدارة مركزية واحدة لـ LLMs.
LLM-Perf المتصدرين	يهدف LLM-Perf Leaderboard إلى قياس أداء LLMs باستخدام الأجهزة والواجهات الخلفية والتحسينات المختلفة.
LMExamQA	LMExamQA هو إطار مرجعي حيث يعمل نموذج اللغة كممتحن لتوليد الأسئلة وتقييم الإجابات بطريقة آلية خالية من المراجع لإجراء تقييم شامل ومنصف.
LongBench	يعد LongBench معيارًا لتقييم قدرات فهم السياق الطويل لـ LLMs.
لونج	يعد Loong معيارًا طويل السياق لتقييم قدرات ضمان الجودة المتعددة المستندات الخاصة بـ LLM عبر السيناريوهات المالية والقانونية والأكاديمية.
لوحة المتصدرين مفتوحة LLM منخفضة البت	يقوم نظام LLM Leaderboard مفتوح الكمي منخفض البت بتتبع ومقارنة LLMs الخاصة بالتكميم مع خوارزميات التكميم المختلفة.
LV-التقييم	يعد LV-Eval معيارًا طويل السياق بخمسة مستويات طول وتقنيات متقدمة للتقييم الدقيق لمهام LLM في مهام ضمان الجودة ذات القفزة الواحدة ومتعددة القفزات عبر مجموعات البيانات ثنائية اللغة.
لوسي إيفال	يقدم LucyEval تقييماً شاملاً لأداء LLMs في سياقات صينية مختلفة.
L-التقييم	L-Eval هو معيار تقييم لنموذج لغة السياق الطويل (LCLM) لتقييم أداء التعامل مع السياق الشامل.
M3KE	يعد M3KE معيارًا ضخمًا لتقييم المعرفة متعدد المستويات ومتعدد الموضوعات لقياس المعرفة التي اكتسبها طلاب LLM الصينيون.
ميتاكريتيك	MetaCritique هو قاض يمكنه تقييم النقد المكتوب بواسطة الإنسان أو النقد الناتج عن ماجستير إدارة الأعمال من خلال توليد النقد.
نعناع	يعد MINT معيارًا لتقييم قدرة LLMs على حل المهام من خلال تفاعلات متعددة المنعطفات باستخدام الأدوات والاستفادة من تعليقات اللغة الطبيعية.
سراب	يعد Mirage معيارًا للجيل المعزز لاسترجاع المعلومات الطبية، ويضم 7663 سؤالًا من خمس مجموعات بيانات لضمان الجودة الطبية وتم اختباره باستخدام 41 تكوينًا باستخدام مجموعة أدوات MedRag.
ميدبينش	MedBench هو معيار لتقييم إتقان المعرفة وقدرات التفكير في ماجستير العلوم الطبية.
ميدس بنش	MedS-Bench هو معيار طبي يقوم بتقييم ماجستير إدارة الأعمال عبر 11 فئة مهام باستخدام 39 مجموعة بيانات متنوعة.
لوحة المتصدرين Meta Open LLM	تعمل لوحة المتصدرين Meta Open LLM كمركز مركزي لدمج البيانات من مختلف لوحات المتصدرين المفتوحة LLM في صفحة تصور واحدة سهلة الاستخدام.
MIMIC لوحة المتصدرين لاتخاذ القرارات السريرية	MIMIC Clinical Decision Leaderboard يتتبع ويقيم LLms في عملية صنع القرار السريري الواقعي لأمراض البطن.
MixEval	يعد MixEval معيارًا لتقييم LLMs من خلال المزج الاستراتيجي للمعايير الجاهزة.
ML.ENERGY المتصدرين	يقوم ML.ENERGY Leaderboard بتقييم استهلاك الطاقة لـ LLMs.
MMedBench	MMedBench هو معيار طبي لتقييم LLMs في الفهم متعدد اللغات.
MMLU	يعد MMLU معيارًا لتقييم أداء LLMs عبر مجموعة واسعة من مهام فهم اللغة الطبيعية.
MMLU-حسب المتصدرين المهمة	يوفر برنامج MMLU-by-task Leaderboard منصة لتقييم ومقارنة نماذج ML المختلفة عبر مهام فهم اللغة المختلفة.
MMLU-Pro	يعد MMLU-Pro إصدارًا أكثر تحديًا من MMLU لتقييم قدرات التفكير لدى LLMs.
لوحة المتصدرين ModelScope LLM	ModelScope LLM Leaderboard عبارة عن منصة لتقييم LLMs بشكل موضوعي وشامل.
لوحة المتصدرين للتقييم النموذجي	تقوم لوحة صدارة تقييم النموذج بتتبع وتقييم نماذج إنشاء النص بناءً على أدائها عبر معايير مختلفة باستخدام إطار عمل Mosaic Eval Gauntlet.
لوحة المتصدرين MSNP	يقوم MSNP Leaderboard بتتبع وتقييم أداء نماذج GGUF الكمية على مجموعات مختلفة من وحدة معالجة الرسومات ووحدة المعالجة المركزية باستخدام إعدادات العقدة الواحدة عبر Ollama.
MSTEB	يعد MSTEB معيارًا لقياس أداء نماذج تضمين النص باللغة الإسبانية.
MTEB	يعد MTEB معيارًا هائلاً لقياس أداء نماذج تضمين النص في مهام التضمين المتنوعة عبر 112 لغة.
ساحة MTEB	تستضيف MTEB Arena ساحة نموذجية للتقييم الديناميكي الواقعي لنماذج التضمين من خلال الاستعلام القائم على المستخدم ومقارنات الاسترجاع.
MT-مقعد-101	يعد MT-Bench-101 معيارًا دقيقًا لتقييم LLMs في الحوارات متعددة المنعطفات.
MY Malay LLM المتصدرين	يهدف MY Malay LLM Leaderboard إلى تتبع وتصنيف وتقييم LLMs المفتوحة في المهام الماليزية.
نوشا	يعد NoCha معيارًا لتقييم مدى قدرة نماذج اللغة طويلة السياق على التحقق من الادعاءات المكتوبة حول الكتب الخيالية.
NPHardEval	يعد NPHardEval معيارًا لتقييم قدرات التفكير لدى LLMs من خلال عدسة فئات التعقيد الحسابي.
لوحة المتصدرين Occiglot Euro LLM	يقوم Occiglot Euro LLM Leaderboard بمقارنة شهادات LLM بأربع لغات رئيسية من معيار Okapi وBeebele (الفرنسية والإيطالية والألمانية والإسبانية والهولندية).
OlympiadBench	يعد OlympiadBench معيارًا علميًا متعدد الوسائط وثنائي اللغة يضم 8476 مشكلة في الرياضيات والفيزياء على مستوى الأولمبياد مع شروح توضيحية خطوة بخطوة على مستوى الخبراء.
الساحة الأولمبية	يعد OlympicArena معيارًا لتقييم القدرات المتقدمة لـ LLMs عبر مجموعة واسعة من التحديات على المستوى الأولمبي.
oobaboga	يعد Oobabooga معيارًا لإجراء اختبارات أداء متكررة لـ LLMs باستخدام واجهة مستخدم ويب oobabooga.
OpenEval	OpenEval عبارة عن منصة لتقييم برامج LLM الصينية.
OpenLLM المتصدرين التركية	تقوم لوحة المتصدرين التركية OpenLLM بتتبع التقدم وتصنيف أداء LLMs باللغة التركية.
المتصدرين الانفتاح	يقوم Openness Leaderboard بتتبع وتقييم شفافية النماذج من حيث الوصول المفتوح إلى الأوزان والبيانات والتراخيص، مما يكشف عن النماذج التي لا ترقى إلى مستوى معايير الانفتاح.
المتصدرين الانفتاح	Openness Leaderboard هي أداة تتتبع مدى انفتاح ماجستير إدارة الأعمال (LLM) المضبوط للتعليمات، وتقييم شفافيتها وبياناتها وتوافر النماذج.
OpenResearcher	يحتوي OpenResearcher على نتائج قياس الأداء على مختلف الأنظمة ذات الصلة بـ RAG باعتبارها لوحة الصدارة.
افتح لوحة المتصدرين العربية LLM	تقوم لوحة المتصدرين العربية المفتوحة LLM بتتبع التقدم وتصنيف أداء LLM باللغة العربية.
افتح لوحة المتصدرين الصينية LLM	يهدف Open Chinese LLM Leaderboard إلى تتبع وتصنيف وتقييم LLMs الصينية المفتوحة.
افتح لوحة صدارة CoT	يقوم Open CoT Leaderboard بتتبع قدرات LLMs على إنشاء آثار منطقية فعالة لسلسلة الأفكار.
افتح لوحة المتصدرين لتقييم LLM الهولندية	تقوم لوحة المتصدرين لتقييم LLM الهولندية المفتوحة بتتبع التقدم وتصنيف أداء LLMs باللغة الهولندية.
فتح المتصدرين LLM المالية	يهدف Open Financial LLM Leaderboard إلى تقييم ومقارنة أداء LLMs المالية.
افتح لوحة المتصدرين لـ ITA LLM	يقوم Open ITA LLM Leaderboard بتتبع التقدم وتصنيف أداء LLMs باللغة الإيطالية.
افتح لوحة المتصدرين Ko-LLM	تقوم Open Ko-LLM Leaderboard بتتبع التقدم وتصنيف أداء LLMs باللغة الكورية.
افتح لوحة المتصدرين LLM	يتتبع Open LLM Leaderboard التقدم ويصنف أداء LLMs باللغة الإنجليزية.
افتح لوحة المتصدرين الطبية-LLM	يهدف Open Medical-LLM Leaderboard إلى تتبع وتصنيف وتقييم LLMs المفتوحة في المجال الطبي.
افتح لوحة المتصدرين MLLM	يهدف Open MLLM Leaderboard إلى تتبع وتصنيف وتقييم LLMs وchatbots.
افتح لوحة المتصدرين MOE LLM	يقوم OPEN MOE LLM Leaderboard بتقييم أداء وكفاءة مختلف برامج LLM من مزيج الخبراء (MoE).
افتح لوحة المتصدرين لتقييم LLM متعدد اللغات	تقوم لوحة المتصدرين لتقييم LLM متعدد اللغات بتتبع التقدم وتصنيف أداء LLMs بلغات متعددة.
افتح لوحة المتصدرين PL LLM	Open PL LLM Leaderboard عبارة عن منصة لتقييم أداء مختلف LLMs باللغة البولندية.
افتح لوحة المتصدرين البرتغالية LLM	يهدف Open PT LLM Leaderboard إلى تقييم ومقارنة LLMs في مهام اللغة البرتغالية.
افتح لوحة المتصدرين LLM في تايوان	تعرض لوحة المتصدرين Open Taiwan LLM أداء حاملي LLM في مختلف مهام فهم لغة الماندرين التايوانية.
Open-LLM-المتصدرين	يقوم Open-LLM-Leaderboard بتقييم LLMs في فهم اللغة والتفكير من خلال الانتقال من أسئلة الاختيار من متعدد (MCQs) إلى الأسئلة ذات النمط المفتوح.
لوحة تحكم OPUS-MT	تعد OPUS-MT Dashboard عبارة عن منصة لتتبع نماذج الترجمة الآلية ومقارنتها عبر أزواج ومقاييس لغوية متعددة.
أو مقعد	يعد OR-Bench معيارًا لتقييم الرفض المفرط للسلامة المعززة في LLMs.
بارسبينش	يوفر ParsBench مجموعة أدوات لقياس درجات LLM بناءً على اللغة الفارسية.
لوحة المتصدرين الفارسية LLM	توفر لوحة المتصدرين الفارسية LLM تقييمًا موثوقًا لماجستير القانون في اللغة الفارسية.
بينوكيو ITA المتصدرين	تقوم لوحة المتصدرين Pinocchio ITA بتتبع وتقييم LLMs باللغة الإيطالية.
بل-متيب	يعد PL-MTEB (معيار تضمين النص الضخم البولندي) معيارًا لتقييم عمليات تضمين النص باللغة البولندية عبر 28 مهمة في البرمجة اللغوية العصبية.
المتصدرين الطبية البولندية	تقوم لوحة المتصدرين الطبية البولندية بتقييم نماذج اللغة في امتحانات شهادة البورد البولندي.
مدعوم من إنتل LLM المتصدرين	تعمل لوحة المتصدرين المدعومة من Intel LLM على تقييم وتسجيل وتصنيف LLMs التي تم تدريبها مسبقًا أو ضبطها جيدًا على أجهزة Intel.
PubMedQA	يعد PubMedQA معيارًا لتقييم الإجابة على أسئلة الأبحاث الطبية الحيوية.
PromptBench	يعد PromptBench معيارًا لتقييم مدى قوة LLMs في المطالبات الخصومة.
QAConv	يعد QAConv معيارًا للإجابة على الأسئلة باستخدام محادثات معقدة ومحددة المجال وغير متزامنة كمصدر للمعرفة.
جودة	تعد الجودة معيارًا لتقييم الإجابة على أسئلة الاختيار من متعدد في سياق طويل.
الأرانب	يعد RABBITS معيارًا لتقييم قوة LLMs من خلال تقييم طريقة تعاملهم مع المرادفات، وتحديدًا أسماء العلامات التجارية والأدوية العامة.
راكودا	يعد Rakuda معيارًا لتقييم ماجستير إدارة الأعمال (LLM) استنادًا إلى مدى إجابتهم على مجموعة من الأسئلة المفتوحة حول الموضوعات اليابانية.
ريد تيم ارينا	Redteam Arena هي منصة للدوران الأحمر لـ LLMS.
معيار مقاومة الفريق الأحمر	يعد Red Team Resistance Benchmark معيارًا لتقييم متانة LLMs ضد مطالبات فريق Red.
REST-MCTS*	REST-MCTS* هي طريقة تدريب ذاتي معززة تستخدم استدلالًا للبحث عن الأشجار وعملية الاستدلال لجمع آثار التفكير عالي الجودة لسياسة التدريب ومكافآت النماذج دون التعليقات التوضيحية لخطوة يدوية.
مراجع الساحة	يستضيف Areperer Arena Arena Arena ، حيث تتنافس LLMs المختلفة على أساس أدائها في انتقاد الأوراق الأكاديمية.
روليفال	Roleeval هو معيار ثنائي اللغة لتقييم قدرات الحفظ والاستخدام والتفكير لمعرفة دور LLMs.
RPBench المتصدرين	RPBNCH-AUTO هو خط أنابيب آلي لتقييم LLMs باستخدام 80 شخصية للشخصيات و 80 مشاهد للعب الأدوار القائمة على المشهد.
راحة chatbot الروسية	تستضيف Chatbot Arena ساحة ChatBot حيث تتنافس LLMs المختلفة باللغة الروسية بناءً على رضا المستخدم.
الروسي superglue	روسي Superglue هو معيار لنماذج اللغة الروسية ، مع التركيز على المهام المنطقية ، والطريقة المنطقية ، ومهام التفكير.
قرية ص	R-Judge هو معيار لتقييم كفاءة LLMs في الحكم على مخاطر السلامة وتحديدها في سجلات تفاعل الوكيل.
مطالبات السلامة	مطالبات السلامة هي معيار لتقييم سلامة LLMs الصينية.
SafetyBench	SafetyBench هو معيار لتقييم سلامة LLMs.
السلطة	السلطة هي معيار لتقييم سلامة وأمن LLMs.
الفلسفة	Scandeval هو معيار لتقييم LLMs على المهام في اللغات الاسكندنافية وكذلك الألمانية والهولندية والإنجليزية.
المتصدرين العلوم	المتصدرون العلمي هو منصة لتقييم قدرات LLMS لحل مشاكل العلوم.
sciglm	SCIGLM عبارة عن مجموعة من نماذج اللغة العلمية التي تستخدم إطارًا لتوضيح التعليمات الذاتي للانتقاء لتعزيز التفكير العلمي من خلال توليد حلول خطوة بخطوة للأسئلة غير المعروفة.
Sciknoweval	SciknoWeval هو معيار لتقييم LLMs بناءً على كفاءتها في الدراسة على نطاق واسع ، والاستفسار عن جدية ، والتفكير العميق ، والشفرة بوضوح ، وممارسة الجادة.
مخطوطات	Scrolls هو معيار لتقييم قدرات التفكير في LLMs على النصوص الطويلة.
Seaexam	Seaexam هو معيار لتقييم LLMs للغات جنوب شرق آسيا (البحر).
SEAL LLM المتصدرين	Seal LLM المتصدرون هي منصة تقييم خاصة تعتمد على الخبراء لـ LLMS.
سيفال	Seaval هو معيار لتقييم أداء LLMs متعددة اللغات في الفهم والتفكير مع اللغة الطبيعية ، وكذلك فهم الممارسات الثقافية والفروق الدقيقة والقيم.
رأس البحر	يعد Sea Helm معيارًا لتقييم أداء LLMS عبر مهام اللغة الإنجليزية وجنوب شرق آسيا ، مع التركيز على الدردشة ، ومتابعة التعليمات ، والقدرات اللغوية.
Seceval	Seceval هو معيار لتقييم معرفة الأمن السيبراني لنماذج الأساس.
لوحة المتصدرين ذاتية التفريغ	يعد Neadorboard الذي يوفر ذاتيًا (SIL) منصة ديناميكية تقوم باستمرار بتحديث مجموعات البيانات والتصنيفات المستمرة لتوفير رؤى أداء في الوقت الفعلي لـ LLMs مفتوحة المصدر ودردشة الدردشة.
مواصفات	المواصفات هي معيار لتقييم طرق فك التشفير المضاربة عبر سيناريوهات متنوعة.
Structeval	Structeval هو معيار لتقييم LLMs من خلال إجراء تقييمات منظمة عبر مستويات إدراكية متعددة ومفاهيم حرجة.
Subquadratic LLM المتصدرين	تقوم اللوحة Subquadratic LLM بتقييم LLMs مع بنية فرعية/خالية من الانتباه (أي RWKV & Mamba).
Superbench	Superbench هو نظام شامل للمهام والأبعاد لتقييم القدرات الإجمالية لـ LLMs.
superglue	SuperGlue هو معيار لتقييم أداء LLMs على مجموعة من مهام فهم اللغة الصعبة.
Superlim	Superlim هو معيار لتقييم قدرات فهم اللغة من LLMs باللغة السويدية.
Swahili LLM-Leaderboard	Swahili LLM-Leaderboard هي جهد مجتمعي مشترك لإنشاء لوحة المتصدرين المركزية لـ LLMS.
S-eval	S-Eval هو معيار شامل ومتعدد الأبعاد مع 220،000 مطالبة مصممة لتقييم سلامة LLM عبر مختلف أبعاد المخاطر.
TableQaeval	يعد TableQaeval معيارًا لتقييم أداء LLM في نمذجة الجداول الطويلة وقدرات الفهم ، مثل التفكير العددي والمتعدد القفاز.
Tat-DQA	Tat-DQA هو معيار لتقييم LLMs على المنطق المنفصل على المستندات التي تجمع بين كل من المعلومات المنظمة وغير المنظمة.
Tat-QA	Tat-QA هو معيار لتقييم LLMs على المنطق المنفصل على المستندات التي تجمع بين كل من المحتوى الجدولي والنص.
التايلاندية LLM المتصدرين	تهدف Thai LLM المتصدرين إلى تتبع وتقييم LLMs في مهام اللغة التايلاندية.
كومة	الوبر هو معيار لتقييم المعرفة العالمية وقدرتها على LLMs.
التوفو	Tofu هو معيار لتقييم أداء غير المؤلم لـ LLMs في السيناريوهات الواقعية.
Toloka LLM Leaderboard	Toloka LLM Leadorboard هو معيار لتقييم LLMs استنادًا إلى مطالبات المستخدم الأصلية والتقييم البشري الخبير.
طاولة أدوات	Toolbench هي منصة للتدريب والخدمة وتقييم LLMs خصيصًا لتعلم الأدوات.
المتصدرين السمية	يقيم لوحة المتصدرين السمية سمية LLMs.
Trustbit LLM المتصدرين	Trustbit LLM المتصدرون هي منصة توفر معايير لبناء وشحن منتجات LLMs.
Trustllm	Trustllm هو معيار لتقييم جدارة LLMs.
TuringAdvice	TuringAdvice هو معيار لتقييم قدرة نماذج اللغة على توليد نصيحة مفيدة للمواقف الواقعية والمفتوحة.
TUTOREVAL	Tusoreval هو معيار لإجازة الأسئلة يقيم مدى جودة تعليم LLM للمستخدم على فهم فصل من كتاب علمي.
تي	T-Eval هو معيار لتقييم قدرة استخدام الأداة لـ LLMs.
ugi المتصدرين	يقيس UGI المتصدرين ويقارن المعلومات غير الخاضعة للرقابة والمثيرة للجدل المعروفة بواسطة LLMS.
Ultraeval	Ultraeval هو إطار مفتوح المصدر للمعايير الشفافة والقابلة للتكرار لـ LLMs عبر أبعاد الأداء المختلفة.
فالز AI	Vals AI عبارة عن منصة لتقييم دقة وفعالية الذكاء الاصطناعي في المهام القانونية في العالم الحقيقي.
جهاز فيديو	يعتبر Visual Comminense Reasoning (VCR) معيارًا للفهم البصري على مستوى الإدراك ، ويتطلب نماذج للإجابة على الأسئلة البصرية وتقديم المأساة لإجاباتها.
فيدور	Vidore هو معيار لتقييم نماذج الاسترجاع على قدرتها على مطابقة الاستعلامات مع المستندات ذات الصلة على مستوى الصفحة.
VLLMS المتصدرين	تهدف VLLMS Leaderboard إلى تتبع ورتبة وتقييم LLMs Open و chatbots.
vmlu	VMLU هو معيار لتقييم القدرات الإجمالية لنماذج الأساس باللغة الفيتنامية.
Wildbench	Wildbench هو معيار لتقييم نماذج اللغة على المهام الصعبة التي تشبه عن كثب التطبيقات في العالم الحقيقي.
Xiezhi	Xiezhi هو معيار لتقييم معرفة المجال الشامل لـ LLMs.
yanolja الساحة	تستضيف Yanolja Arena ساحة نموذجية لتقييم قدرات LLMS في تلخيص النص وترجمته.
بعد لوحة المتصدرين LLM أخرى	متصدر LLM آخر هو منصة لتتبع وتصنيف وتقييم LLMs Open و chatbots.
zebralogic	Zebralogic هو معيار يقييم التفكير المنطقي لـ LLMS باستخدام الألغاز الشبكية المنطقية ، وهو نوع من مشكلة رضا القيد (CSP).
Zerosumeval	Zerosumeval هو إطار تقييم تنافسي لـ LLMs باستخدام عمليات محاكاة متعددة اللاعبين مع ظروف فوز واضحة.

صورة

اسم	وصف
صورة مجردة	الصورة الخلاصة هي معيار لتقييم LLMs متعددة الوسائط (MLLM) في الفهم والتفكير البصري حول الصور المجردة ، مثل الخرائط والمخططات والتخطيطات.
AESBENCH	AESBENCH هو معيار لتقييم MLLMs على تصور جماليات الصور.
وميض	Blink هو معيار لتقييم قدرات التصور البصري الأساسي لـ MLLMs.
Blinkcode	Blinkcode هو معيار لتقييم MLLMs عبر 15 طرازًا باللغة الرؤية (VLMS) و 9 مهام ، وقياس الدقة وأداء إعادة بناء الصور.
يهتم	Cares هو معيار لتقييم جدارة بالثقة في Med-LVLMs عبر الثقة ، والإنصاف ، والسلامة ، والخصوصية ، والمتانة باستخدام 41 كيلو بايت من أزواج الإجابة من 16 طوابق الصور الطبية و 27 منطقة تشريحية.
Chartmimic	ChartMimic هو معيار لتقييم إمكانات توليد الكود المرصعة بصريًا لنماذج كبيرة متعددة الوسائط باستخدام الرسوم البيانية والتعليمات النصية.
charxiv	Charxiv هو معيار لتقييم قدرات فهم المخططات من MLLMs.
السياق	يعد Contextual معيارًا لتقييم MLLMs عبر مهام التفكير البصري المرتبط بالسياق.
Core-MM	Core-MM هو معيار لتقييم إمكانيات الإجابات المرئية المفتوحة (VQA) لـ MLLMs.
Dreambench ++	Dreambench ++ هو معيار محاذاة الإنسان مؤتمتة بواسطة نماذج متعددة الوسائط لتوليد الصور المخصصة.
egoplan-beck	Egoplan-Bench هو معيار لتقييم قدرات التخطيط لـ MLLMs في سيناريوهات الأنانية في العالم الحقيقي.
Glitchbench	Glitchbench هو معيار لتقييم إمكانيات التفكير في MLLMs في سياق اكتشاف مواطن خلل ألعاب الفيديو.
HallusionBench	HallusionBench هو معيار لتقييم إمكانات التفكير في سياق الصور من MLLMs.
infimm-eval	InfiMM-Eval هو معيار لتقييم قدرات VQA المفتوحة من MLLMs.
LRVSF المتصدرين	LRVSF Leaderboard هو منصة لتقييم LLMs فيما يتعلق بالبحث في تشابه الصورة في الموضة.
LVLM المتصدرين	LVLM Leaderboard هي منصة لتقييم إمكانات التفكير البصري لـ MLLMS.
M3cot	M3COT هو معيار لسلسلة MLLMs متعددة الخطوات متعددة المجالات.
تذكارات	Mementos هو معيار لتقييم قدرات التفكير في MLLMs على تسلسل الصور.
MJ-BECK	MJ-BENCES هي معيار لتقييم القضاة متعددة الوسائط في تقديم ملاحظات لنماذج توليد الصور عبر أربعة منظورات رئيسية: المحاذاة والسلامة وجودة الصورة والتحيز.
mllm-as-a-legh	MLLM-AS-A-Judge هو معيار مع التعليقات التوضيحية البشرية لتقييم إمكانات التحكيم في MLLMS في التسجيل ، ومقارنة الزوج ، ومهام الترتيب الدُفعات عبر المجالات المتعددة الوسائط.
MLLM-BECK	MLLM-BECK هي معيار لتقييم قدرات التفكير البصري لـ MLVMS.
Mmbench المتصدرين	Mmbench Leaderboard هي منصة لتقييم إمكانات التفكير البصري لـ MLLMs.
Mme	MME هو معيار لتقييم قدرات التفكير البصري لـ MLLMs.
Mme-RealWorld	Mme-RealWorld هو معيار واسع النطاق وعالي الدقة يضم 29429 زوجًا من QA المصنوع من الإنسان عبر 43 مهمة.
MMIU	MMIU (الفهم النهائي متعدد الصور) هو معيار لتقييم MLLMs عبر 7 علاقات متعددة الصور ، 52 مهمة ، 77 كيلو فولت ، و 11k أسئلة متعددة الخيارات منسقة.
MMMU	MMMU هو معيار لتقييم أداء النماذج متعددة الوسائط في المهام التي تتطلب معرفة على مستوى الكلية والتفكير على مستوى الخبراء عبر مختلف التخصصات.
معدل وفيات الأمهات	MMR هو معيار لتقييم متانة MLLMs في الفهم البصري من خلال تقييم قدرتها على التعامل مع الأسئلة الرئيسية ، بدلاً من الدقة فقط في الإجابة.
MMSearch	MMSearch هو معيار لتقييم أداء البحث متعدد الوسائط لـ LMMS.
MMSTAR	MMSTAR هو معيار لتقييم القدرات متعددة الوسائط من MLLMS.
MMT-BECK	MMT-BENCES هي معيار لتقييم MLLMs عبر مجموعة واسعة من المهام متعددة الوسائط التي تتطلب معرفة الخبراء بالإضافة إلى الاعتراف البصري المتعمد والتوطين والتفكير والتخطيط.
مم نيوه	MM-Niah (الإبرة في كومة قش متعددة الوسائط) هي معيار لتقييم قدرة MLLMS على فهم المستندات المتعددة الوسائط الطويلة من خلال مهام الاسترداد والعد والتفكير التي تتضمن بيانات النص والصورة.
MTVQA	MTVQA هو معيار لفهم النص المرئي متعدد اللغات لتقييم MLLMs.
المتصدرين الهلوسة متعدد الوسائط	يقارن لوحة المتصدرين في الهلوسة متعددة الوسائط MLLMs بناءً على مستويات الهلوسة في مهام مختلفة.
متعددة المراكز	يعد Multi-Bistmark معيارًا لتقييم MLLMs على فهم الجداول والصور المعقدة ، والمنطق مع السياق الطويل.
متعددة	Multitrust هو معيار لتقييم جدارة MLLMs عبر خمسة جوانب أساسية: الصدق والسلامة والمتانة والإنصاف والخصوصية.
nphardeval4v	Nphardeval4v هو معيار لتقييم قدرات التفكير في MLLMs من خلال عدسة فئات التعقيد الحسابي.
موفر المتصدرين	LLM API Providers Leaderboard هي منصة لمقارنة أداء مزود API لنقاط نهاية LLM عبر مقاييس مفتاح الأداء.
Ocrbench	Ocrbench هو معيار لتقييم قدرات OCR للنماذج متعددة الوسائط.
محرك PCA	PCA-BECT هي معيار لتقييم قدرات صنع القرار المجسدة للنماذج متعددة الوسائط.
q-beck	Q-BECK هي معيار لتقييم قدرات التفكير البصري لـ MLLMS.
مكافأة	Rawardbench هو معيار لتقييم قدرات وسلامة نماذج المكافآت.
Scienceqa	ScienceQA هو معيار يستخدم لتقييم قدرة التفكير المتعددة القفاز وتفسير أنظمة الذكاء الاصطناعى في سياق الإجابة على أسئلة العلوم.
Scigraphqa	Scigraphqa هو معيار لتقييم MLLMs في إجابة الرسوم البيانية العلمية.
مقعد البذور	البذور هي معيار لتقييم النص والصور من النماذج متعددة الوسائط.
URIAL	Urial هو معيار لتقييم قدرة نماذج اللغة على المحاذاة دون إدخال عوامل الضبع الدقيق (معدل التعلم ، والبيانات ، وما إلى ذلك) ، والتي يصعب التحكم فيها في المقارنات العادلة.
upd ادفع المتصدرين	UPD Leaderboard هي منصة لتقييم جدارة MLLMs في اكتشاف المشكلات غير القابلة للحل.
فيبي	Vibe-Eval هو معيار لتقييم MLLMs للحالات الصعبة.
VideoHallucer	VideoHallucer هو معيار للكشف عن الهلوسة في MLLMs.
زيارة	تعد Visit-Betic معيارًا لتقييم إمكانيات متابعة التعليمات لـ MLLMs للاستخدام في العالم الحقيقي.
تحديات مجموعة البيانات المفتوحة Waymo	تحديات مجموعة البيانات المفتوحة Waymo تحمل مجموعات بيانات ذاتية القيادة لتقييم نماذج ML.
عفوًا!	عفوًا! هو معيار لتقييم قدرات التفكير المنطقي البصري من MLLMs.
Wildvision-beck	Wildvision-Bench هو معيار لتقييم VLMs في البرية مع التفضيلات البشرية.
Wildvision Arena	تستضيف Wildvision Arena Arena Chatbot حيث تتنافس MLLMs المختلفة بناءً على أدائها في الفهم البصري.

شفرة

اسم	وصف
AIDER LLM المتصدرين	تقوم Adider LLM Pervoroards بتقييم قدرة LLM على اتباع مطالبات النظام لتحرير التعليمات البرمجية.
AppWorld	AppWorld هي بيئة تنفيذ عالية الدقة تتكون من 9 تطبيقات يومية ، قابلة للتشغيل عبر 457 واجهات برمجة التطبيقات ، التي يتم ملؤها مع أنشطة رقمية تبلغ حوالي 100 شخص يعيشون في عالم محاكاة.
Berkeley وظيفة المتصدرين	تقوم شركة Berkeley Function-Collection Bayrboard بتقييم قدرة LLMs على استدعاء وظائف (المعروفة أيضًا باسم الأدوات) بدقة.
BigCodeBench	BigCodeBench هو معيار لتوليد الكود مع مهام البرمجة العملية والصعبة.
برامج الرمز الكبرى المتصدرين	Big Code Models هي منصة لتتبع وتقييم أداء LLMs على المهام المتعلقة بالدولة.
طائر	يعد Bird معيارًا لتقييم أداء أنظمة تحليل النص إلى SQL.
booksql	Booksql هو معيار لتقييم أنظمة النص إلى SQL في مجال التمويل والمحاسبة عبر مختلف الصناعات مع مجموعة بيانات من مليون معاملة من 27 شركة.
Canaicode المتصدرين	CanaiCode Leaderboard هي منصة لتقييم إمكانيات توليد الكود في LLMS.
Classeval	Classeval هو معيار لتقييم LLMs على توليد رمز على مستوى الفصل.
Codeapex	Codeapex هو معيار لتقييم فهم برمجة LLMS من خلال أسئلة الخيارات متعددة الخيارات وتوليد الكود مع مشاكل خوارزمية C ++.
Codescope	CodeScope هو معيار لتقييم قدرات ترميز LLM عبر 43 لغة و 8 مهام ، مع الأخذ في الاعتبار الصعوبة والكفاءة والطول.
CodetRansocean	يعد Codetransocean معيارًا لتقييم ترجمة الكود عبر مجموعة واسعة من لغات البرمجة ، بما في ذلك التعليمات الشهيرة والمتخصصة والرمز المترجمة LLM.
رمز Lingua	تعتبر Code Lingua معيارًا لمقارنة قدرة نماذج الكود على فهم ما ينفذه الرمز بلغات المصدر وترجمة نفس الدلالات باللغات المستهدفة.
ترميز LLMS Legarboard	CODING LLMS Leaderboard هي منصة لتقييم وترتيب LLMS عبر مهام البرمجة المختلفة.
الالتزام 0	MAINT-0 هو تحدٍ من AI Cratch AI لإعادة بناء 54 مكتبات بيثون الأساسية ، مما يضمن اجتياز اختبارات الوحدة بتغطية اختبار كبيرة ، وفحص الوبر/النوع ، والتطوير الموزع القائم على السحابة.
كروسيفال	Cruxeval هو معيار لتقييم القدرات المدونة والفهم والتنفيذ في LLMs.
CSPIDER	CSPIDER هو معيار لتقييم قدرة الأنظمة على توليد استعلامات SQL من اللغة الطبيعية الصينية عبر قواعد بيانات متنوعة ومعقدة وعبر المجال.
Cyberseceval	Cyberseceval هو معيار لتقييم الأمن السيبراني لـ LLMs كمساعدين للترميز.
Devops AI مساعد المتصدرين المفتوح	DevOps AI Assistant Playerboard Pracks ، تصنيفات ، ويقوم بتقييم مساعدي DevOps AI عبر مجالات المعرفة.
Devops-eval	DevOps-Eval هو معيار لتقييم نماذج الكود في حقل DevOps/AIOPS.
المجال	Domaineval هو معيار تم بناؤه تلقائيًا لتوليد الكود متعدد المجالات.
Dr.Spider	Dr.Spider هو معيار لتقييم متانة نماذج النص إلى SQL باستخدام مجموعات اختبار الاضطراب المختلفة.
Effibench	Effibench هو معيار لتقييم كفاءة LLMs في توليد الكود.
تقييم	Evalplus هو معيار لتقييم أداء توليد الكود لـ LLMS.
EvocodeBench	EVOCODEBENCH هو معيار توليد الكود التطوري يتماشى مع مستودعات رمز العالم الحقيقي.
evoeval	Evoeval هو معيار لتقييم قدرات ترميز LLMs ، التي تم إنشاؤها عن طريق تطور المعايير الحالية في مجالات مستهدفة مختلفة.
Infibench	Infibench هو معيار لتقييم نماذج الكود على الإجابة على أسئلة متعلقة برمز العالم الحقيقي.
intercode	Intercode هو معيار لتوحيد وتقييم الترميز التفاعلي مع ملاحظات التنفيذ.
جوليا LLM المتصدرين	JULIA LLM Leaderboard هي منصة لمقارنة قدرات نماذج الكود في توليد كود جوليا الصحيح بشكل نحلي ، ويتميز باختبارات منظمة والتقييمات الآلية لقياس سهولة وتعاونية.
LiveCodeBench	LiveCodeBench هو معيار لتقييم نماذج الكود عبر السيناريوهات المتعلقة بالدولة مع مرور الوقت.
رمز طويل الساحة	Long Code Arena هي مجموعة من المعايير للمهام المتعلقة بالدولة مع سياقات كبيرة ، حتى مستودع رمز كامل.
mceval	MCEVAL عبارة عن معيار لتقييم الكود متعدد اللغات على نطاق واسع يغطي 40 لغة (16 كيلو عينة في 44 المجموع) ، يشمل توليد التعليمات البرمجية متعددة اللغات ، شرح التعليمات البرمجية متعددة اللغات ، ومهام إكمال الكود متعدد اللغات.
تحفيز أو توليد نماذج الكود الكبيرة المتصدرين	تحفيز أو توليد نماذج الكود الكبيرة تتبع المتصدرين ويقارن أداء نماذج توليد الكود.
متعدد المقاعد	Multi-swe-bench هي مشكلة في حل GitHub متعددة اللغات لحل المعيار لوكلاء الكود.
NaturalCodeBench	NaturalCodeBench هو معيار لعكس تعقيد ومجموعة متنوعة من السيناريوهات في مهام الترميز الحقيقية.
وظيفة Nexus الاتصال المتصدرين	وظيفة Nexus Calling Leadorboard هي منصة لتقييم نماذج التعليمات البرمجية على أداء استدعاء الوظائف واستخدام واجهة برمجة التطبيقات.
NL2SQL360	NL2SQL360 هو إطار تقييم شامل لمقارنة وتحسين أساليب NL2SQL عبر سيناريوهات التطبيق المختلفة.
PECC	PECC هو معيار يقوم بتقييم توليد الكود من خلال مطالبة النماذج بفهم واستخراج متطلبات المشكلة من الأوصاف القائمة على السرد لإنتاج حلول دقيقة.
معايير Prollm	Prollm Penchmarks هو معيار LLM عملي وموثوق به مصمم لحالات استخدام الأعمال في العالم الحقيقي عبر العديد من الصناعات ولغات البرمجة.
Pybench	Pybench هو معيار تقييم LLM على مهام الترميز في العالم الحقيقي بما في ذلك تحليل المخططات ، تحليل النص ، تحرير الصور/ الصوت ، الرياضيات المعقدة وتطوير البرامج/ الموقع.
سباق	العرق هو معيار لتقييم قدرة LLMs على إنشاء رمز صحيح ويفي بمتطلبات سيناريوهات تطوير العالم الحقيقي.
repoqa	Repoqa هو معيار لتقييم قدرة رمز السياق الطويل على قدرة LLMS.
Scicode	SciCode هو معيار مصمم لتقييم نماذج اللغة في إنشاء رمز لحل مشاكل البحث العلمي الواقعية.
SlitidityBench	SloodityBench هو معيار لتقييم وترتيب قدرة LLMs في توليد العقود الذكية ومراجعة.
العنكبوت	Spider هو معيار لتقييم أداء واجهات اللغة الطبيعية لقواعد بيانات المجال المتقاطع.
StableToolbench	StableToolBench هو معيار لتقييم الأدوات التي تهدف إلى توفير مزيج متوازن من الاستقرار والواقع.
مقاعد البدلاء	SWE-BENCES هي معيار لتقييم LLMS على مشكلات البرامج في العالم الحقيقي التي تم جمعها من Github.
WebApp1k	WebApp1k هو معيار لتقييم LLMs على قدراتهم على تطوير تطبيقات الويب في العالم الحقيقي.
WebDev Arena	تستضيف WebDev Arena Arena Chatbot حيث تتنافس LLMs المختلفة بناءً على تطوير موقع الويب.
البرية	Wilds هي معيار لتحولات التوزيع داخل البشرة التي تمتد على طرائق وتطبيقات البيانات المتنوعة ، من تحديد الورم إلى مراقبة الحياة البرية إلى رسم خرائط الفقر.

فيديو

اسم	وصف
chrononmagic-beck	يعد Chrononmagic-Bench معيارًا لتقييم قدرة نماذج الفيديو على توليد مقاطع فيديو زمنية ذات سعة متحولة عالية والتماسك الزمني عبر مجالات الفيزياء والبيولوجيا والكيمياء باستخدام التحكم في النص الحرة.
Dream-1k	Dream-1k هو معيار لتقييم أداء وصف الفيديو على 1000 مقاطع فيديو متنوعة تضم أحداثًا غنية ، وأفعال ، وحركات من الأفلام ، والرسوم المتحركة ، ومقاطع فيديو الأسهم ، و youtube ، ومقاطع الفيديو القصيرة على غرار Tiktok.
LongVideObench	يعد LongVideObench معيارًا لتقييم قدرات نماذج الفيديو في الإجابة على أسئلة التفكير المشار إليها ، والتي تعتمد على مدخلات الإطار الطويلة ولا يمكن معالجتها جيدًا بإطار واحد أو بضعة إطارات متفرقة.
Lvbench	LVBENCH هو معيار لتقييم النماذج متعددة الوسائط على مهام فهم الفيديو الطويلة التي تتطلب إمكانات ذاكرة ممتدة وقدرات الفهم.
mlvu	MLVU هو معيار لتقييم نماذج الفيديو في فهم الفيديو الطويل متعدد المهام.
MMTOM-QA	MMTOM-QA هو معيار متعدد الوسائط لتقييم نظرية الآلة للعقل (TOM) ، القدرة على فهم عقول الناس.
mvbench	MVBench هو معيار لتقييم قدرات الفهم الزمني لنماذج الفيديو في مهام الفيديو الديناميكية.
OpenVLM الفيديو المتصدر	OpenVLM Video Leaderboard هو منصة تعرض نتائج التقييم لـ 30 VLMs مختلفة عن معايير فهم الفيديو باستخدام Flmevalkit Framework.
TempCompass	TempCompass هو معيار لتقييم التصور الزمني لفيديو LLMS باستخدام 410 مقاطع فيديو و 7،540 تعليمات المهمة عبر 11 جانبًا زمنيًا و 4 أنواع من المهام.
vbench	VBench هو معيار لتقييم قدرات توليد الفيديو لنماذج الفيديو.
Videoniah	Videoniah هو معيار لتقييم الفهم الدقيق وقدرات النمذجة المكانية والزمانية لنماذج الفيديو.
فيديو	الفيديو هو معيار لتقييم مقاطع الفيديو التي تم إنشاؤها للالتزام بالمواصلة المادية في التفاعلات في العالم الحقيقي.
VideoScore	VideoScore هو معيار لتقييم النماذج التوليدية من النص إلى الفيديو على خمسة أبعاد رئيسية.
Videovista	Videovista هو معيار مع 25000 سؤال من 3400 مقطع فيديو عبر 14 فئة ، تغطي 19 مهمة تفاهم و 8 مهام التفكير.
مقعد الفيديو	يعد Video Bench معيارًا لتقييم التفاهم الحصري للفيديو ، ودمج المعرفة السابقة ، وقدرات اتخاذ القرارات القائمة على الفيديو لنماذج الفيديو.
فيديو MME	يعد Video-MME معيارًا لتقييم قدرات تحليل الفيديو لنماذج الفيديو.

الرياضيات

اسم	وصف
هابيل	Abel هي منصة لتقييم القدرات الرياضية لـ LLMS.
Mathbench	Mathbench هو معيار تقييم الرياضيات متعدد المستويات الصعوبة لـ LLMS.
Matheval	Matheval هو معيار لتقييم القدرات الرياضية لـ LLMS.
Mathusereval	Mathusereval هو معيار يضم أسئلة الامتحان الجامعي والاستعلامات المتعلقة بالرياضيات المستمدة من محادثات محاكاة مع المذيعين ذوي الخبرة.
Mathverse	Matherse هو معيار لتقييم نماذج لغة الرؤية في تفسير المعلومات المرئية والمنطق فيها في المشكلات الرياضية.
Mathvista	Mathvista هو معيار لتقييم التفكير الرياضي في السياقات البصرية.
الرياضيات	يعد Math-Vision (MATH-V) معيارًا لـ 3،040 من مشاكل الرياضيات السياقية بصريًا من المسابقات ، وتغطي 16 تخصصًا و 5 مستويات صعوبة لتقييم التفكير الرياضي لـ LMMS.
فتح لوحة المتصدرين متعددة اللغات	فتح مسارات المتصدرين متعددة اللغات ويصنف أداء المنطق لـ LLMS على معايير التفكير الرياضي متعدد اللغات.
بوتنامب	Putnambench هو معيار لتقييم قدرات التفكير الرياضي الرسمي لـ LLMS في مسابقة بوتنام.
Scibench	Scibench هو معيار لتقييم قدرات التفكير في LLMs لحل المشكلات العلمية المعقدة.
TABMWP	TABMWP هو معيار لتقييم LLMS في مهام التفكير الرياضي التي تنطوي على كل من البيانات النصية والجدولة.
نحن	نحن في حالة معيار لتقييم قدرات التفكير الرياضي الشبيه بالإنسان لـ LLMs مع مبادئ لحل المشكلات تتجاوز الأداء الشامل.

عامل

اسم	وصف
AgentBench	AgentBench هو المعيار لتقييم نموذج اللغة كوكيل عبر مجموعة متنوعة من البيئات المختلفة.
AgentStudio	AgentStudio هو حل متكامل يضم الأجنحة القياسية المتعمقة ، والبيئات الواقعية ، ومجموعات أدوات شاملة.
شخصية	Themaryeval هو معيار لتقييم عوامل المحادثة التي تلعب الأدوار (RPCAs) باستخدام حوارات متعددة وملفات تعريف الشخصيات ، مع مقاييس تمتد لأربعة أبعاد.
GTA	GTA هو معيار لتقييم قدرة استخدام الأدوات للعوامل المستندة إلى LLM في سيناريوهات العالم الحقيقي.
صالة رياضية ليتكوود هارد	LeetCode-Hard Gym هي واجهة بيئة RL لخادم تقديم LeetCode لتقييم وكلاء CodeGen.
LLM كولوسيوم المتصدرين	LLM Colosseum Leaderboard هي منصة لتقييم LLMS من خلال القتال في Street Fighter 3.
سحر	Magic هو معيار لقياس قدرات الإدراك والقدرة على التكيف والعقلانية والتعاون مع LLMs داخل sytems متعددة العوامل.
OLAS تتوقع المعيار	تتوقع OLAS أن يعتبر Benchmark معيارًا لتقييم الوكلاء حول التنبؤ بالحدث التاريخي والمستقبلي.
TravelPlanner	TravelPlanner هو معيار لتقييم عوامل LLM في استخدام الأدوات والتخطيط المعقد ضمن قيود متعددة.
vab	VisualagentBench (VAB) هو معيار لتقييم وتطوير LMMs كعوامل الأساس البصري ، والتي تضم 5 بيئات مميزة عبر 3 أنواع من مهام العامل البصري التمثيلي.
VisualWebarena	VisualWebarena هو معيار لتقييم أداء وكلاء الويب متعددة الوسائط على المهام الواقعية الواقعية.
المتصدرين Webagent	تتتبع Webagent Leaderboard وتقييم LLMs و VLMS والوكلاء في مهام التنقل على الويب.
Webarena	Webarena هي بيئة ويب مستقلة ذاتية الاستضافة لتقييم العوامل المستقلة.
γ على مقعد	γ-BECK هي إطار لتقييم قدرات ألعاب LLMS في بيئات متعددة الوكلاء باستخدام ثمانية سيناريوهات نظرية اللعبة الكلاسيكية ومخطط تسجيل ديناميكي.
τ على مدن المقعد	τ-beck هي معيار يحاكي المحادثات الديناميكية بين مستخدم محاكي طراز اللغة ووكيل لغة مجهز بأدوات API الخاصة بالمجال وإرشادات السياسة.

صوتي

اسم	وصف
مقعد الهواء	يعد Air-Betic معيارًا لتقييم قدرة النماذج الصوتية على فهم أنواع مختلفة من إشارات الصوت (بما في ذلك الكلام البشري والأصوات الطبيعية والموسيقى) ، علاوة على التفاعل مع البشر بالتنسيق النصي.
AudiObench	AudiObench هو معيار لنماذج الصوت التي تتبع التعليمات العامة.
افتح المتصدرين ASR	يوفر Open ASR Leaderboard منصة لتتبع وتصنيف وتقييم نماذج التعرف على الكلام التلقائي (ASR).
البولندية ASR المتصدرين	تهدف Polish ASR Leaderboard إلى توفير نظرة عامة شاملة على أداء أنظمة ASR/STT للتلميع.
سمك السلمون	Salmon هو جناح تقييم يعقد نماذج لغة الكلام على الاتساق ، وضوضاء الخلفية ، والعاطفة ، وهوية السماعة ، والاستجابة الدافعة للغرفة.
TTS Arena	تستضيف TTS-ARENA الساحة النصية (TTS) ، حيث تتنافس نماذج TTS المختلفة بناءً على أدائها في توليد الكلام.
المتصدرين الهمس	Whisper Leaderboard هو تتبع النظام الأساسي ومقارنة أداء نماذج الصوت في الكلام على مجموعات البيانات المختلفة.

3D

اسم	وصف
3D Arena	تستضيف 3D Arena Arena 3D Generation Arena ، حيث تتنافس النماذج التقليدية ثلاثية الأبعاد على أساس أدائها في إنشاء نماذج ثلاثية الأبعاد.
3D-Pope	3D-Pope هو معيار لتقييم الهلوسة الكائن في النماذج التوليدية ثلاثية الأبعاد.
3Dgen Arena	تستضيف 3Dgen Arena ساحة الجيل ثلاثي الأبعاد ، حيث تتنافس النماذج التوليدية ثلاثية الأبعاد المختلفة بناءً على أدائها في توليد نماذج ثلاثية الأبعاد.
بوب	BOP هو معيار لتقدير 6D الوضع لكائن جامد من صورة إدخال RGB-D واحدة.
gpteval3d	GPTEVAL3D هو معيار لتقييم capabiltiies MLLMS لفهم المحتوى ثلاثي الأبعاد عبر صور متعددة الرؤية كمدخلات.

متعدد الوسائط

اسم	وصف
جيناي أرينا	تستضيف Genai Arena ساحة الجيل البصري ، حيث تتنافس نماذج الرؤية المختلفة على أساس أدائها في توليد الصور وإصدار الصور وتوليد الفيديو.
Labelbox المتصدرين	تقوم ألواح المتصدرين في صندوق الملصقات بتقييم أداء نماذج الذكاء الاصطناعى التوليدي باستخدام مصنع البيانات الخاص بهم: النظام الأساسي ، والعملية العلمية والبشر الخبراء.
مكبرات الصوت الضخمة	Mega-Bench هي معيار للتقييم متعدد الوسائط مع مهام متنوعة عبر 8 أنواع تطبيقات ، و 7 تنسيقات إدخال ، و 6 تنسيقات للإخراج ، و 10 مهارات متعددة الوسائط ، وتمتد على الصور الواحدة ، والخيول المتعددة ، ومهام الفيديو.

ترتيب قاعدة البيانات

اسم	وصف
VectordBbench	VectordBbench هو معيار لتقييم الأداء وفعالية التكلفة وقابلية التوسع لمختلف قواعد بيانات المتجهات وخدمات قاعدة بيانات المتجهات المستندة إلى مجموعة النظراء.

تصنيف مجموعة البيانات

اسم	وصف
DataComp	DataComp هو معيار لتقييم أداء مجموعات البيانات المختلفة مع بنية نموذج ثابت.

الترتيب المتري

اسم	وصف
محاذاة	يقيم AlignScore أداء مقاييس مختلفة في تقييم الاتساق الواقعية.

تصنيف الورق

اسم	وصف
أوراق المتصدرين	Papers Leaderboard هي منصة لتقييم شعبية أوراق التعلم الآلي.

ترتيب المتصدرين

اسم	وصف
فتح المتصدرين المتصدرين	Open Leadboards Leadorboard هو لوحة قادة ميتا تعمل على الاستفادة من التفضيلات البشرية لمقارنة ألواح المتصدرين في التعلم الآلي.

يوسع