كلو | ACLUE هو معيار تقييم لفهم اللغة الصينية القديمة. |
اللغات الأفريقية LLM تقييم المتصدرين | يقوم برنامج African Languages LLM Eval Leaderboard بتتبع التقدم وتصنيف أداء LLMs في اللغات الأفريقية. |
AgentBoard | يعد AgentBoard معيارًا مرجعيًا لوكلاء LLM متعددي المنعطفات، ويكمله مجلس تقييم تحليلي لتقييم النموذج التفصيلي بما يتجاوز معدلات النجاح النهائية. |
AGIEval | AGIEval هو معيار يتمحور حول الإنسان لتقييم القدرات العامة للنماذج الأساسية في المهام ذات الصلة بالإدراك البشري وحل المشكلات. |
آييرا المتصدرين | تقوم Aiera Leaderboard بتقييم أداء LLM في مهام الذكاء المالي، بما في ذلك تعيينات المتحدث، وتحديد تغيير المتحدث، والتلخيصات المجردة، والأسئلة والأجوبة القائمة على الحسابات، ووضع علامات على المشاعر المالية. |
مقعد الهواء | يعد AIR-Bench معيارًا لتقييم قدرات استرجاع المعلومات غير المتجانسة لنماذج اللغة. |
لوحة المتصدرين لدرجات الطاقة بالذكاء الاصطناعي | يقوم AI Energy Score Leaderboard بتتبع النماذج المختلفة في كفاءة استخدام الطاقة ومقارنتها. |
معايير الذكاء الاصطناعي | تحتوي معايير الذكاء الاصطناعي على عدد قليل من نتائج التقييم لزمن الاستجابة لخدمات الذكاء الاصطناعي الشائعة. |
AlignBench | يعد AlignBench معيارًا متعدد الأبعاد لتقييم محاذاة LLMs باللغة الصينية. |
AlpacaEval | AlpacaEval هو مقيم تلقائي مصمم لماجستير إدارة الأعمال الذي يتبع التعليمات. |
أنغو | ANGO هو معيار تقييم نموذج اللغة الصينية الموجه نحو الأجيال. |
لوحة المتصدرين للرموز العربية | تقارن لوحة المتصدرين العربية Tokenizers كفاءة LLMs في تحليل اللغة العربية بلهجاتها وأشكالها المختلفة. |
ارينا-هارد-أوتو | يعد Arena-Hard-Auto معيارًا قياسيًا لبرامج LLM المضبوطة للتعليمات. |
سباق السيارات | يركز AutoRace على التقييم المباشر لسلاسل الاستدلال LLM باستخدام AutoRace المتري (تقييم سلسلة الاستدلال الآلي). |
ساحة السيارات | يعد Auto Arena معيارًا يشارك فيه وكلاء نماذج اللغة المختلفة في معارك بين الأقران لتقييم أدائهم. |
لصناعة السيارات في J | يستضيف Auto-J نتائج التقييم بشأن مقارنة الاستجابة الزوجية ومهام توليد النقد. |
بابيلونج | يعد BABILong معيارًا لتقييم أداء النماذج اللغوية في معالجة المستندات الطويلة بشكل تعسفي مع الحقائق الموزعة. |
ببل | BBL (BIG-bench Lite) هي مجموعة فرعية صغيرة مكونة من 24 مهمة JSON متنوعة من BIG-bench. لقد تم تصميمه لتوفير مقياس أساسي لأداء النموذج، في حين أنه أرخص بكثير في التقييم من المجموعة الكاملة التي تضم أكثر من 200 مهمة برمجية ومهام JSON في BIG-bench. |
كن صادقا | BeHonest هو معيار لتقييم الصدق - الوعي بحدود المعرفة (المعرفة الذاتية)، وتجنب الخداع (عدم الخداع)، والاتساق في الاستجابات (الاتساق) - في LLMs. |
بنبينش | يعد BenBench معيارًا لتقييم مدى قيام LLM بإجراء تدريب حرفي على مجموعة التدريب الخاصة بالمعيار عبر مجموعة الاختبار لتعزيز القدرات. |
BenCzechMark | يعد BenCzechMark (BCM) معيارًا متعدد المهام ومتعدد المقاييس للغة التشيكية لمجالس LLM مع نظام تسجيل فريد يستخدم نظرية الأهمية الإحصائية. |
مقعد BiGGen | يعد BiGGen-Bench معيارًا شاملاً لتقييم LLMs عبر مجموعة واسعة من المهام. |
بوت شات | يعد BotChat معيارًا لتقييم إمكانات الدردشة متعددة الجولات لـ LLMs من خلال مهمة وكيل. |
قانون القضاءQA | يعد CaselawQA معيارًا يشتمل على مهام التصنيف القانوني المستمدة من قواعد البيانات القانونية للمحكمة العليا ومحكمة الاستئناف في سونجر. |
CFLUE | يعد CFLUE معيارًا لتقييم قدرات الفهم والمعالجة لدى LLM في المجال المالي الصيني. |
Ch3Ef | يعد Ch3Ef معيارًا لتقييم التوافق مع التوقعات البشرية باستخدام 1002 عينة مشروحة بشريًا عبر 12 مجالًا و46 مهمة استنادًا إلى مبدأ hhh. |
مركز سلسلة الفكر | يعد Chain-of-Thought Hub معيارًا لتقييم قدرات التفكير لدى LLMs. |
ساحة الدردشة | تستضيف Chatbot Arena ساحة chatbot حيث يتنافس العديد من حاملي شهادات LLM على أساس رضا المستخدم. |
كيمبينش | يعد ChemBench معيارًا لتقييم المعرفة الكيميائية وقدرات التفكير لدى طلاب LLM. |
الصينية SimpleQA | يعد SimpleQA الصيني معيارًا صينيًا لتقييم القدرة الواقعية لنماذج اللغة على الإجابة على الأسئلة القصيرة. |
كليم المتصدرين | CLEM هو إطار عمل مصمم للتقييم المنهجي لـ LLMs المحسّنة للدردشة كوكلاء محادثة. |
كليفا | يعد CLEVA معيارًا لتقييم ماجستير إدارة الأعمال في 31 مهمة باستخدام 370 ألف استعلام صيني من 84 مجموعة بيانات متنوعة و9 مقاييس. |
المتصدرين النموذج الصيني الكبير | تعد لوحة المتصدرين للنموذج الصيني الكبير عبارة عن منصة لتقييم أداء حاملي شهادات LLM الصينية. |
CMB | CMB هو معيار طبي متعدد المستويات باللغة الصينية. |
CMMLU | يعد CMMLU معيارًا لتقييم أداء LLMs في مواضيع مختلفة ضمن السياق الثقافي الصيني. |
CMMMU | يعد CMMMU معيارًا لتقييم LMMs في المهام التي تتطلب المعرفة بالموضوع على مستوى الكلية والتفكير المتعمد في السياق الصيني. |
كومونجين | يعد CommonGen معيارًا لتقييم المنطق المنطقي التوليدي من خلال اختبار الآلات لقدرتها على تكوين جمل متماسكة باستخدام مجموعة معينة من المفاهيم الشائعة. |
كومميكس | يعد CompMix معيارًا للإجابة على الأسئلة غير المتجانسة. |
لوحة المتصدرين لمعدل الضغط | تهدف لوحة المتصدرين لمعدل الضغط إلى تقييم أداء أداة الرمز المميز بلغات مختلفة. |
ضغط المتصدرين | Compression Leaderboard عبارة عن منصة لتقييم أداء الضغط لـ LLMs. |
كوبيبنش | يعد CopyBench معيارًا لتقييم سلوك النسخ وفائدة نماذج اللغة بالإضافة إلى فعالية الطرق للتخفيف من مخاطر حقوق الطبع والنشر. |
CoTaEval | يعد CoTaEval معيارًا لتقييم الجدوى والآثار الجانبية لطرق إزالة حقوق الطبع والنشر لـ LLMs. |
تحويل | يعد ConvRe معيارًا لتقييم قدرة LLMs على فهم العلاقات العكسية. |
CriticEval | يعد CriticEval معيارًا لتقييم قدرة LLMs على تقديم استجابات نقدية. |
CS-مقعد | يعد CS-Bench معيارًا ثنائي اللغة مصممًا لتقييم أداء ماجستير إدارة الأعمال عبر 26 مجالًا فرعيًا لعلوم الكمبيوتر، مع التركيز على المعرفة والتفكير. |
لطيف | CUTE هو معيار لاختبار المعرفة الإملائية للماجستير في القانون. |
سايبرمتري | يعد CyberMetric معيارًا لتقييم معرفة طلاب LLM في مجال الأمن السيبراني. |
تشيكبينش | يعد CzechBench معيارًا لتقييم نماذج اللغة التشيكية. |
ج-التقييم | C-Eval عبارة عن مجموعة تقييم صينية لدرجة الماجستير في القانون. |
لوحة المتصدرين في الساحة اللامركزية | تستضيف Decentralized Arena منصة لا مركزية وديمقراطية لتقييم LLM، وأتمتة التقييمات وتوسيع نطاقها عبر أبعاد متنوعة يحددها المستخدم، بما في ذلك الرياضيات والمنطق والعلوم. |
DecodingTrust | DecodingTrust عبارة عن منصة لتقييم مدى مصداقية LLMs. |
المجال LLM المتصدرين | Domain LLM Leaderboard عبارة عن منصة لتقييم شعبية LLMs الخاصة بالمجال. |
المتصدرين سيناريوهات المؤسسة | يقوم برنامج Enterprise Scenarios Leaderboard بتتبع وتقييم أداء LLMs في حالات استخدام المؤسسات في العالم الحقيقي. |
EQ-مقعد | يعد EQ-Bench معيارًا لتقييم جوانب الذكاء العاطفي في LLMs. |
المتصدرين LLM الأوروبي | يقوم برنامج LLM Leaderboard الأوروبي بتتبع ومقارنة أداء LLMs باللغات الأوروبية. |
EvalGPT.ai | يستضيف موقع EvalGPT.ai ساحة الدردشة الآلية لمقارنة أداء LLMs وتصنيفه. |
إيفال أرينا | يقيس Eval Arena مستويات الضوضاء وجودة النموذج وجودة المعيار من خلال مقارنة أزواج النماذج عبر العديد من معايير تقييم LLM مع التحليل على مستوى المثال والمقارنات الزوجية. |
المتصدرين الواقعية | تقوم لوحة المتصدرين الواقعية بمقارنة القدرات الواقعية لـ LLMs. |
FanOutQA | يعد FanOutQA معيارًا عالي الجودة ومتعدد القفزات ومتعدد المستندات لمجالس LLM التي تستخدم ويكيبيديا الإنجليزية كقاعدة معرفية لها. |
FastEval | FastEval عبارة عن مجموعة أدوات للتقييم السريع لنماذج لغة الدردشة ومتابعة التعليمات وفقًا لمعايير مختلفة مع استنتاج سريع ورؤى تفصيلية عن الأداء. |
فيلم | FELM هو معيار وصفي لتقييم معيار تقييم الواقع لـ LLMs. |
FinEval | يعد FinEval معيارًا لتقييم المعرفة بالمجال المالي في LLMs. |
ضبط المتصدرين | إن لوحة الضبط الدقيق عبارة عن منصة لتصنيف وعرض النماذج التي تم ضبطها بدقة باستخدام مجموعات البيانات أو الأطر مفتوحة المصدر. |
النيران | يعد Flames معيارًا صينيًا شديد الخصومة لتقييم توافق قيمة LLMs عبر العدالة والسلامة والأخلاق والشرعية وحماية البيانات. |
FollowBench | FollowBench عبارة عن قيود دقيقة متعددة المستويات تتبع المعيار لتقييم قدرة اتباع التعليمات لـ LLMs. |
مجموعة بيانات الأسئلة المحظورة | تعد مجموعة بيانات الأسئلة المحظورة بمثابة معيار يحتوي على 160 سؤالًا من 160 فئة منتهكة، مع أهداف مقابلة لتقييم طرق كسر الحماية. |
استعراض الصمامات | يهدف FuseReviews إلى تطوير مهام إنشاء النص، بما في ذلك الإجابة على الأسئلة الطويلة والتلخيص. |
غايا | تهدف GAIA إلى اختبار القدرات الأساسية التي يجب أن يمتلكها مساعد الذكاء الاصطناعي. |
جافي | GAVIE هو معيار بمساعدة GPT-4 لتقييم الهلوسة في LMMs من خلال تسجيل الدقة والملاءمة دون الاعتماد على الحقيقة الأرضية المشروحة من قبل الإنسان. |
GPT-فهم | GPT-Fathom عبارة عن مجموعة تقييم LLM، تقيس أكثر من 10 من LLMs الرائدة بالإضافة إلى نماذج OpenAI القديمة على أكثر من 20 معيارًا منسقًا عبر 7 فئات للقدرات، كل ذلك ضمن إعدادات متوافقة. |
GrailQA | تعد الإجابة على الأسئلة القابلة للتعميم بقوة (GrailQA) معيارًا واسع النطاق وعالي الجودة للإجابة على الأسئلة على قواعد المعرفة (KBQA) على Freebase مع 64331 سؤالًا مشروحًا بكل من الإجابات والأشكال المنطقية المقابلة في تركيب مختلف (على سبيل المثال، SPARQL، S-expression ، إلخ.). |
GTBench | يعد GTBench معيارًا لتقييم وتصنيف قدرات التفكير لدى LLMs في البيئات التنافسية من خلال المهام النظرية للعبة، على سبيل المثال، ألعاب الطاولة والورق. |
Guerra LLM AI المتصدرين | Guerra LLM AI Leaderboard يقارن ويصنف أداء LLMs عبر الجودة والسعر والأداء ونافذة السياق وغيرها. |
الهلوسة المتصدرين | تهدف لوحة المتصدرين للهلوسة إلى تتبع وتصنيف وتقييم الهلوسة في LLMs. |
HalluQA | HalluQA هو معيار لتقييم ظاهرة الهلوسة في LLMs الصينية. |
لوحة المتصدرين LLM العبرية | تقوم لوحة المتصدرين LLM العبرية بتتبع نماذج اللغة وتصنيفها وفقًا لنجاحها في المهام المختلفة باللغة العبرية. |
هيلاسواج | يعد HellaSwag معيارًا لتقييم المنطق المنطقي في LLMs. |
هيوز نموذج تقييم الهلوسة المتصدرين | تعد لوحة المتصدرين لنموذج تقييم الهلوسة من Hughes عبارة عن منصة لتقييم عدد المرات التي يقدم فيها نموذج اللغة الهلوسة عند تلخيص مستند. |
المتصدرين LLM الأيسلندية | تتتبع لوحة المتصدرين الأيسلندية LLM وتقارن النماذج في مهام اللغة الأيسلندية. |
IFEval | يعد IFEval معيارًا لتقييم قدرات اتباع تعليمات LLM بتعليمات يمكن التحقق منها. |
إيل-تور | يعد IL-TUR معيارًا لتقييم النماذج اللغوية في المهام أحادية اللغة ومتعددة اللغات التي تركز على الفهم والتفكير في المستندات القانونية الهندية. |
المتصدرين LLM الهندية | Indic LLM Leaderboard عبارة عن منصة لتتبع ومقارنة أداء Indic LLMs. |
إنديكو LLM المتصدرين | يقوم Indico LLM Leaderboard بتقييم ومقارنة دقة نماذج اللغة المختلفة عبر مقدمي الخدمة ومجموعات البيانات والإمكانيات مثل تصنيف النص واستخراج المعلومات الأساسية والتلخيص التوليدي. |
InstructEval | InstructEval عبارة عن مجموعة لتقييم طرق اختيار التعليمات في سياق LLMs. |
الإيطالية LLM-المتصدرين | يتتبع برنامج LLM-Leaderboard الإيطالي ويقارن بين LLMs في مهام اللغة الإيطالية. |
جيلبريكبينش | JailbreakBench هو معيار لتقييم نقاط الضعف في LLM من خلال المطالبات العدائية. |
ساحة Chatbot اليابانية | تستضيف ساحة Chatbot اليابانية ساحة Chatbot، حيث يتنافس العديد من حاملي شهادات LLM بناءً على أدائهم باللغة اليابانية. |
نموذج اللغة اليابانية لأداة التقييم المالي | أداة التقييم المالي لنموذج اللغة اليابانية هي أداة لتقييم نموذج اللغة اليابانية في المجال المالي. |
معيار لعب الأدوار LLM الياباني | يعد معيار لعب الأدوار LLM الياباني معيارًا لتقييم أداء حاملي LLM اليابانيين في لعب الأدوار الشخصية. |
JMED-LLM | JMED-LLM (مجموعة بيانات التقييم الطبي الياباني لنماذج اللغات الكبيرة) هي معيار لتقييم LLMs في المجال الطبي باللغة اليابانية. |
JMMMU | JMMMU (اليابانية MMMU) هو معيار متعدد الوسائط لتقييم أداء LMM باللغة اليابانية. |
JustEval | JustEval هي أداة قوية مصممة للتقييم الدقيق لبرامج LLM. |
كولا | يعد KoLA معيارًا لتقييم المعرفة العالمية بمجال LLM. |
خروف | يعد LaMP (تخصيص نماذج اللغة) معيارًا لتقييم قدرات التخصيص لنماذج اللغة. |
مجلس نموذج اللغة | يعد مجلس نموذج اللغة (LMC) معيارًا لتقييم المهام التي تكون ذاتية للغاية وغالبًا ما تفتقر إلى اتفاق الأغلبية البشرية. |
LawBench | يعد LawBench معيارًا لتقييم القدرات القانونية لـ LLMs. |
لا المتصدرين | يقوم La Leaderboard بتقييم وتتبع حفظ LLM والاستدلال والقدرات اللغوية في إسبانيا وأمريكا اللاتينية ومنطقة البحر الكاريبي. |
LogicKor | LogicKor هو معيار لتقييم قدرات التفكير متعدد التخصصات لحاملي LLM الكوريين. |
LongICL المتصدرين | LongICL Leaderboard عبارة عن منصة لتقييم تقييمات التعلم الطويلة في السياق لـ LLMs. |
لوجلي | يعد LooGLE معيارًا لتقييم قدرات فهم السياق الطويل لمجالات LLM. |
لايو | LAiW هو معيار لتقييم فهم اللغة القانونية الصينية واستدلالها. |
مجموعة LLM Benchmarker | يعد LLM Benchmarker Suite معيارًا لتقييم القدرات الشاملة لـ LLMs. |
تقييم نموذج اللغة الكبير في سياقات اللغة الإنجليزية | يعد تقييم نموذج اللغة الكبير في سياقات اللغة الإنجليزية بمثابة منصة لتقييم LLMs في سياق اللغة الإنجليزية. |
تقييم نموذج اللغة الكبير في السياق الصيني | يعد تقييم نموذج اللغة الكبير في السياق الصيني بمثابة منصة لتقييم LLMs في السياق الصيني. |
الميزان | يعد LIBRA معيارًا لتقييم قدرات LLMs في فهم ومعالجة النصوص الروسية الطويلة. |
LibrAI-Eval GenAI المتصدرين | يركز LibrAI-Eval GenAI Leaderboard على التوازن بين قدرة LLM والسلامة في اللغة الإنجليزية. |
لايف بنش | يعد LiveBench معيارًا لـ LLMs لتقليل تلوث مجموعة الاختبار وتمكين التقييم الموضوعي والآلي عبر مهام متنوعة يتم تحديثها بانتظام. |
LLMval | يعد LLMEval معيارًا لتقييم جودة محادثات المجال المفتوح مع LLMs. |
Llmeval-Gaokao2024-Math | Llmeval-Gaokao2024-Math هو معيار لتقييم LLMs في مسائل الرياضيات على مستوى Gaokao لعام 2024 باللغة الصينية. |
LLMالهلوسة المتصدرين | تقوم لوحة المتصدرين للهلوسة بتقييم LLMs بناءً على مجموعة من المعايير المتعلقة بالهلوسة. |
LLMperf | LLMPerf هي أداة لتقييم أداء LLMs باستخدام اختبارات التحميل والصحة. |
LLMs لوحة المتصدرين للتنبؤ بمخاطر الأمراض | لوحة المتصدرين للتنبؤ بمخاطر الأمراض LLM هي عبارة عن منصة لتقييم LLMs حول التنبؤ بمخاطر الأمراض. |
LLM المتصدرين | يقوم LLM Leaderboard بتتبع مقدمي خدمات LLM وتقييمهم، مما يتيح اختيار واجهة برمجة التطبيقات والنموذج الأمثل لاحتياجات المستخدم. |
LLM المتصدرين لإدارة علاقات العملاء | تعد CRM LLM Leaderboard عبارة عن منصة لتقييم فعالية LLMs لتطبيقات الأعمال. |
مرصد LLM | يعد مرصد LLM معيارًا يقوم بتقييم وتصنيف LLMs بناءً على أدائهم في تجنب التحيزات الاجتماعية عبر فئات مثل التوجه LGBTIQ + والعمر والجنس والسياسة والعرق والدين وكراهية الأجانب. |
لوحة المتصدرين لأسعار LLM | LLM Price Leaderboard يتتبع ويقارن تكاليف LLM على أساس مليون رمز مميز. |
تصنيفات LLM | تقدم تصنيفات LLM مقارنة في الوقت الفعلي لنماذج اللغة بناءً على الاستخدام المميز للرمز المميز للمطالبات والإكمالات، ويتم تحديثها بشكل متكرر. |
LLM لعب الأدوار المتصدرين | تقوم LLM roleplay Leaderboard بتقييم الأداء البشري وأداء الذكاء الاصطناعي في لعبة المستذئب الاجتماعية لتطوير الشخصيات غير القابلة للعب. |
LLM المتصدرين السلامة | يهدف LLM Safety Leaderboard إلى توفير تقييم موحد لسلامة نماذج اللغة. |
LLM استخدام حالة المتصدرين | LLM Use Case Leaderboard يتتبع ويقيم LLMs في حالات استخدام الأعمال. |
LLM-AggreFact | LLM-AggreFact هو معيار للتحقق من الحقائق يجمع أحدث مجموعات البيانات المتاحة للجمهور بناءً على تقييم الحقائق المرتكز. |
LLM-المتصدرين | LLM-Leaderboard هو جهد مجتمعي مشترك لإنشاء لوحة صدارة مركزية واحدة لـ LLMs. |
LLM-Perf المتصدرين | يهدف LLM-Perf Leaderboard إلى قياس أداء LLMs باستخدام الأجهزة والواجهات الخلفية والتحسينات المختلفة. |
LMExamQA | LMExamQA هو إطار مرجعي حيث يعمل نموذج اللغة كممتحن لتوليد الأسئلة وتقييم الإجابات بطريقة آلية خالية من المراجع لإجراء تقييم شامل ومنصف. |
LongBench | يعد LongBench معيارًا لتقييم قدرات فهم السياق الطويل لـ LLMs. |
لونج | يعد Loong معيارًا طويل السياق لتقييم قدرات ضمان الجودة المتعددة المستندات الخاصة بـ LLM عبر السيناريوهات المالية والقانونية والأكاديمية. |
لوحة المتصدرين مفتوحة LLM منخفضة البت | يقوم نظام LLM Leaderboard مفتوح الكمي منخفض البت بتتبع ومقارنة LLMs الخاصة بالتكميم مع خوارزميات التكميم المختلفة. |
LV-التقييم | يعد LV-Eval معيارًا طويل السياق بخمسة مستويات طول وتقنيات متقدمة للتقييم الدقيق لمهام LLM في مهام ضمان الجودة ذات القفزة الواحدة ومتعددة القفزات عبر مجموعات البيانات ثنائية اللغة. |
لوسي إيفال | يقدم LucyEval تقييماً شاملاً لأداء LLMs في سياقات صينية مختلفة. |
L-التقييم | L-Eval هو معيار تقييم لنموذج لغة السياق الطويل (LCLM) لتقييم أداء التعامل مع السياق الشامل. |
M3KE | يعد M3KE معيارًا ضخمًا لتقييم المعرفة متعدد المستويات ومتعدد الموضوعات لقياس المعرفة التي اكتسبها طلاب LLM الصينيون. |
ميتاكريتيك | MetaCritique هو قاض يمكنه تقييم النقد المكتوب بواسطة الإنسان أو النقد الناتج عن ماجستير إدارة الأعمال من خلال توليد النقد. |
نعناع | يعد MINT معيارًا لتقييم قدرة LLMs على حل المهام من خلال تفاعلات متعددة المنعطفات باستخدام الأدوات والاستفادة من تعليقات اللغة الطبيعية. |
سراب | يعد Mirage معيارًا للجيل المعزز لاسترجاع المعلومات الطبية، ويضم 7663 سؤالًا من خمس مجموعات بيانات لضمان الجودة الطبية وتم اختباره باستخدام 41 تكوينًا باستخدام مجموعة أدوات MedRag. |
ميدبينش | MedBench هو معيار لتقييم إتقان المعرفة وقدرات التفكير في ماجستير العلوم الطبية. |
ميدس بنش | MedS-Bench هو معيار طبي يقوم بتقييم ماجستير إدارة الأعمال عبر 11 فئة مهام باستخدام 39 مجموعة بيانات متنوعة. |
لوحة المتصدرين Meta Open LLM | تعمل لوحة المتصدرين Meta Open LLM كمركز مركزي لدمج البيانات من مختلف لوحات المتصدرين المفتوحة LLM في صفحة تصور واحدة سهلة الاستخدام. |
MIMIC لوحة المتصدرين لاتخاذ القرارات السريرية | MIMIC Clinical Decision Leaderboard يتتبع ويقيم LLms في عملية صنع القرار السريري الواقعي لأمراض البطن. |
MixEval | يعد MixEval معيارًا لتقييم LLMs من خلال المزج الاستراتيجي للمعايير الجاهزة. |
ML.ENERGY المتصدرين | يقوم ML.ENERGY Leaderboard بتقييم استهلاك الطاقة لـ LLMs. |
MMedBench | MMedBench هو معيار طبي لتقييم LLMs في الفهم متعدد اللغات. |
MMLU | يعد MMLU معيارًا لتقييم أداء LLMs عبر مجموعة واسعة من مهام فهم اللغة الطبيعية. |
MMLU-حسب المتصدرين المهمة | يوفر برنامج MMLU-by-task Leaderboard منصة لتقييم ومقارنة نماذج ML المختلفة عبر مهام فهم اللغة المختلفة. |
MMLU-Pro | يعد MMLU-Pro إصدارًا أكثر تحديًا من MMLU لتقييم قدرات التفكير لدى LLMs. |
لوحة المتصدرين ModelScope LLM | ModelScope LLM Leaderboard عبارة عن منصة لتقييم LLMs بشكل موضوعي وشامل. |
لوحة المتصدرين للتقييم النموذجي | تقوم لوحة صدارة تقييم النموذج بتتبع وتقييم نماذج إنشاء النص بناءً على أدائها عبر معايير مختلفة باستخدام إطار عمل Mosaic Eval Gauntlet. |
لوحة المتصدرين MSNP | يقوم MSNP Leaderboard بتتبع وتقييم أداء نماذج GGUF الكمية على مجموعات مختلفة من وحدة معالجة الرسومات ووحدة المعالجة المركزية باستخدام إعدادات العقدة الواحدة عبر Ollama. |
MSTEB | يعد MSTEB معيارًا لقياس أداء نماذج تضمين النص باللغة الإسبانية. |
MTEB | يعد MTEB معيارًا هائلاً لقياس أداء نماذج تضمين النص في مهام التضمين المتنوعة عبر 112 لغة. |
ساحة MTEB | تستضيف MTEB Arena ساحة نموذجية للتقييم الديناميكي الواقعي لنماذج التضمين من خلال الاستعلام القائم على المستخدم ومقارنات الاسترجاع. |
MT-مقعد-101 | يعد MT-Bench-101 معيارًا دقيقًا لتقييم LLMs في الحوارات متعددة المنعطفات. |
MY Malay LLM المتصدرين | يهدف MY Malay LLM Leaderboard إلى تتبع وتصنيف وتقييم LLMs المفتوحة في المهام الماليزية. |
نوشا | يعد NoCha معيارًا لتقييم مدى قدرة نماذج اللغة طويلة السياق على التحقق من الادعاءات المكتوبة حول الكتب الخيالية. |
NPHardEval | يعد NPHardEval معيارًا لتقييم قدرات التفكير لدى LLMs من خلال عدسة فئات التعقيد الحسابي. |
لوحة المتصدرين Occiglot Euro LLM | يقوم Occiglot Euro LLM Leaderboard بمقارنة شهادات LLM بأربع لغات رئيسية من معيار Okapi وBeebele (الفرنسية والإيطالية والألمانية والإسبانية والهولندية). |
OlympiadBench | يعد OlympiadBench معيارًا علميًا متعدد الوسائط وثنائي اللغة يضم 8476 مشكلة في الرياضيات والفيزياء على مستوى الأولمبياد مع شروح توضيحية خطوة بخطوة على مستوى الخبراء. |
الساحة الأولمبية | يعد OlympicArena معيارًا لتقييم القدرات المتقدمة لـ LLMs عبر مجموعة واسعة من التحديات على المستوى الأولمبي. |
oobaboga | يعد Oobabooga معيارًا لإجراء اختبارات أداء متكررة لـ LLMs باستخدام واجهة مستخدم ويب oobabooga. |
OpenEval | OpenEval عبارة عن منصة لتقييم برامج LLM الصينية. |
OpenLLM المتصدرين التركية | تقوم لوحة المتصدرين التركية OpenLLM بتتبع التقدم وتصنيف أداء LLMs باللغة التركية. |
المتصدرين الانفتاح | يقوم Openness Leaderboard بتتبع وتقييم شفافية النماذج من حيث الوصول المفتوح إلى الأوزان والبيانات والتراخيص، مما يكشف عن النماذج التي لا ترقى إلى مستوى معايير الانفتاح. |
المتصدرين الانفتاح | Openness Leaderboard هي أداة تتتبع مدى انفتاح ماجستير إدارة الأعمال (LLM) المضبوط للتعليمات، وتقييم شفافيتها وبياناتها وتوافر النماذج. |
OpenResearcher | يحتوي OpenResearcher على نتائج قياس الأداء على مختلف الأنظمة ذات الصلة بـ RAG باعتبارها لوحة الصدارة. |
افتح لوحة المتصدرين العربية LLM | تقوم لوحة المتصدرين العربية المفتوحة LLM بتتبع التقدم وتصنيف أداء LLM باللغة العربية. |
افتح لوحة المتصدرين الصينية LLM | يهدف Open Chinese LLM Leaderboard إلى تتبع وتصنيف وتقييم LLMs الصينية المفتوحة. |
افتح لوحة صدارة CoT | يقوم Open CoT Leaderboard بتتبع قدرات LLMs على إنشاء آثار منطقية فعالة لسلسلة الأفكار. |
افتح لوحة المتصدرين لتقييم LLM الهولندية | تقوم لوحة المتصدرين لتقييم LLM الهولندية المفتوحة بتتبع التقدم وتصنيف أداء LLMs باللغة الهولندية. |
فتح المتصدرين LLM المالية | يهدف Open Financial LLM Leaderboard إلى تقييم ومقارنة أداء LLMs المالية. |
افتح لوحة المتصدرين لـ ITA LLM | يقوم Open ITA LLM Leaderboard بتتبع التقدم وتصنيف أداء LLMs باللغة الإيطالية. |
افتح لوحة المتصدرين Ko-LLM | تقوم Open Ko-LLM Leaderboard بتتبع التقدم وتصنيف أداء LLMs باللغة الكورية. |
افتح لوحة المتصدرين LLM | يتتبع Open LLM Leaderboard التقدم ويصنف أداء LLMs باللغة الإنجليزية. |
افتح لوحة المتصدرين الطبية-LLM | يهدف Open Medical-LLM Leaderboard إلى تتبع وتصنيف وتقييم LLMs المفتوحة في المجال الطبي. |
افتح لوحة المتصدرين MLLM | يهدف Open MLLM Leaderboard إلى تتبع وتصنيف وتقييم LLMs وchatbots. |
افتح لوحة المتصدرين MOE LLM | يقوم OPEN MOE LLM Leaderboard بتقييم أداء وكفاءة مختلف برامج LLM من مزيج الخبراء (MoE). |
افتح لوحة المتصدرين لتقييم LLM متعدد اللغات | تقوم لوحة المتصدرين لتقييم LLM متعدد اللغات بتتبع التقدم وتصنيف أداء LLMs بلغات متعددة. |
افتح لوحة المتصدرين PL LLM | Open PL LLM Leaderboard عبارة عن منصة لتقييم أداء مختلف LLMs باللغة البولندية. |
افتح لوحة المتصدرين البرتغالية LLM | يهدف Open PT LLM Leaderboard إلى تقييم ومقارنة LLMs في مهام اللغة البرتغالية. |
افتح لوحة المتصدرين LLM في تايوان | تعرض لوحة المتصدرين Open Taiwan LLM أداء حاملي LLM في مختلف مهام فهم لغة الماندرين التايوانية. |
Open-LLM-المتصدرين | يقوم Open-LLM-Leaderboard بتقييم LLMs في فهم اللغة والتفكير من خلال الانتقال من أسئلة الاختيار من متعدد (MCQs) إلى الأسئلة ذات النمط المفتوح. |
لوحة تحكم OPUS-MT | تعد OPUS-MT Dashboard عبارة عن منصة لتتبع نماذج الترجمة الآلية ومقارنتها عبر أزواج ومقاييس لغوية متعددة. |
أو مقعد | يعد OR-Bench معيارًا لتقييم الرفض المفرط للسلامة المعززة في LLMs. |
بارسبينش | يوفر ParsBench مجموعة أدوات لقياس درجات LLM بناءً على اللغة الفارسية. |
لوحة المتصدرين الفارسية LLM | توفر لوحة المتصدرين الفارسية LLM تقييمًا موثوقًا لماجستير القانون في اللغة الفارسية. |
بينوكيو ITA المتصدرين | تقوم لوحة المتصدرين Pinocchio ITA بتتبع وتقييم LLMs باللغة الإيطالية. |
بل-متيب | يعد PL-MTEB (معيار تضمين النص الضخم البولندي) معيارًا لتقييم عمليات تضمين النص باللغة البولندية عبر 28 مهمة في البرمجة اللغوية العصبية. |
المتصدرين الطبية البولندية | تقوم لوحة المتصدرين الطبية البولندية بتقييم نماذج اللغة في امتحانات شهادة البورد البولندي. |
مدعوم من إنتل LLM المتصدرين | تعمل لوحة المتصدرين المدعومة من Intel LLM على تقييم وتسجيل وتصنيف LLMs التي تم تدريبها مسبقًا أو ضبطها جيدًا على أجهزة Intel. |
PubMedQA | يعد PubMedQA معيارًا لتقييم الإجابة على أسئلة الأبحاث الطبية الحيوية. |
PromptBench | يعد PromptBench معيارًا لتقييم مدى قوة LLMs في المطالبات الخصومة. |
QAConv | يعد QAConv معيارًا للإجابة على الأسئلة باستخدام محادثات معقدة ومحددة المجال وغير متزامنة كمصدر للمعرفة. |
جودة | تعد الجودة معيارًا لتقييم الإجابة على أسئلة الاختيار من متعدد في سياق طويل. |
الأرانب | يعد RABBITS معيارًا لتقييم قوة LLMs من خلال تقييم طريقة تعاملهم مع المرادفات، وتحديدًا أسماء العلامات التجارية والأدوية العامة. |
راكودا | يعد Rakuda معيارًا لتقييم ماجستير إدارة الأعمال (LLM) استنادًا إلى مدى إجابتهم على مجموعة من الأسئلة المفتوحة حول الموضوعات اليابانية. |
ريد تيم ارينا | Redteam Arena هي منصة للدوران الأحمر لـ LLMS. |
معيار مقاومة الفريق الأحمر | يعد Red Team Resistance Benchmark معيارًا لتقييم متانة LLMs ضد مطالبات فريق Red. |
REST-MCTS* | REST-MCTS* هي طريقة تدريب ذاتي معززة تستخدم استدلالًا للبحث عن الأشجار وعملية الاستدلال لجمع آثار التفكير عالي الجودة لسياسة التدريب ومكافآت النماذج دون التعليقات التوضيحية لخطوة يدوية. |
مراجع الساحة | يستضيف Areperer Arena Arena Arena ، حيث تتنافس LLMs المختلفة على أساس أدائها في انتقاد الأوراق الأكاديمية. |
روليفال | Roleeval هو معيار ثنائي اللغة لتقييم قدرات الحفظ والاستخدام والتفكير لمعرفة دور LLMs. |
RPBench المتصدرين | RPBNCH-AUTO هو خط أنابيب آلي لتقييم LLMs باستخدام 80 شخصية للشخصيات و 80 مشاهد للعب الأدوار القائمة على المشهد. |
راحة chatbot الروسية | تستضيف Chatbot Arena ساحة ChatBot حيث تتنافس LLMs المختلفة باللغة الروسية بناءً على رضا المستخدم. |
الروسي superglue | روسي Superglue هو معيار لنماذج اللغة الروسية ، مع التركيز على المهام المنطقية ، والطريقة المنطقية ، ومهام التفكير. |
قرية ص | R-Judge هو معيار لتقييم كفاءة LLMs في الحكم على مخاطر السلامة وتحديدها في سجلات تفاعل الوكيل. |
مطالبات السلامة | مطالبات السلامة هي معيار لتقييم سلامة LLMs الصينية. |
SafetyBench | SafetyBench هو معيار لتقييم سلامة LLMs. |
السلطة | السلطة هي معيار لتقييم سلامة وأمن LLMs. |
الفلسفة | Scandeval هو معيار لتقييم LLMs على المهام في اللغات الاسكندنافية وكذلك الألمانية والهولندية والإنجليزية. |
المتصدرين العلوم | المتصدرون العلمي هو منصة لتقييم قدرات LLMS لحل مشاكل العلوم. |
sciglm | SCIGLM عبارة عن مجموعة من نماذج اللغة العلمية التي تستخدم إطارًا لتوضيح التعليمات الذاتي للانتقاء لتعزيز التفكير العلمي من خلال توليد حلول خطوة بخطوة للأسئلة غير المعروفة. |
Sciknoweval | SciknoWeval هو معيار لتقييم LLMs بناءً على كفاءتها في الدراسة على نطاق واسع ، والاستفسار عن جدية ، والتفكير العميق ، والشفرة بوضوح ، وممارسة الجادة. |
مخطوطات | Scrolls هو معيار لتقييم قدرات التفكير في LLMs على النصوص الطويلة. |
Seaexam | Seaexam هو معيار لتقييم LLMs للغات جنوب شرق آسيا (البحر). |
SEAL LLM المتصدرين | Seal LLM المتصدرون هي منصة تقييم خاصة تعتمد على الخبراء لـ LLMS. |
سيفال | Seaval هو معيار لتقييم أداء LLMs متعددة اللغات في الفهم والتفكير مع اللغة الطبيعية ، وكذلك فهم الممارسات الثقافية والفروق الدقيقة والقيم. |
رأس البحر | يعد Sea Helm معيارًا لتقييم أداء LLMS عبر مهام اللغة الإنجليزية وجنوب شرق آسيا ، مع التركيز على الدردشة ، ومتابعة التعليمات ، والقدرات اللغوية. |
Seceval | Seceval هو معيار لتقييم معرفة الأمن السيبراني لنماذج الأساس. |
لوحة المتصدرين ذاتية التفريغ | يعد Neadorboard الذي يوفر ذاتيًا (SIL) منصة ديناميكية تقوم باستمرار بتحديث مجموعات البيانات والتصنيفات المستمرة لتوفير رؤى أداء في الوقت الفعلي لـ LLMs مفتوحة المصدر ودردشة الدردشة. |
مواصفات | المواصفات هي معيار لتقييم طرق فك التشفير المضاربة عبر سيناريوهات متنوعة. |
Structeval | Structeval هو معيار لتقييم LLMs من خلال إجراء تقييمات منظمة عبر مستويات إدراكية متعددة ومفاهيم حرجة. |
Subquadratic LLM المتصدرين | تقوم اللوحة Subquadratic LLM بتقييم LLMs مع بنية فرعية/خالية من الانتباه (أي RWKV & Mamba). |
Superbench | Superbench هو نظام شامل للمهام والأبعاد لتقييم القدرات الإجمالية لـ LLMs. |
superglue | SuperGlue هو معيار لتقييم أداء LLMs على مجموعة من مهام فهم اللغة الصعبة. |
Superlim | Superlim هو معيار لتقييم قدرات فهم اللغة من LLMs باللغة السويدية. |
Swahili LLM-Leaderboard | Swahili LLM-Leaderboard هي جهد مجتمعي مشترك لإنشاء لوحة المتصدرين المركزية لـ LLMS. |
S-eval | S-Eval هو معيار شامل ومتعدد الأبعاد مع 220،000 مطالبة مصممة لتقييم سلامة LLM عبر مختلف أبعاد المخاطر. |
TableQaeval | يعد TableQaeval معيارًا لتقييم أداء LLM في نمذجة الجداول الطويلة وقدرات الفهم ، مثل التفكير العددي والمتعدد القفاز. |
Tat-DQA | Tat-DQA هو معيار لتقييم LLMs على المنطق المنفصل على المستندات التي تجمع بين كل من المعلومات المنظمة وغير المنظمة. |
Tat-QA | Tat-QA هو معيار لتقييم LLMs على المنطق المنفصل على المستندات التي تجمع بين كل من المحتوى الجدولي والنص. |
التايلاندية LLM المتصدرين | تهدف Thai LLM المتصدرين إلى تتبع وتقييم LLMs في مهام اللغة التايلاندية. |
كومة | الوبر هو معيار لتقييم المعرفة العالمية وقدرتها على LLMs. |
التوفو | Tofu هو معيار لتقييم أداء غير المؤلم لـ LLMs في السيناريوهات الواقعية. |
Toloka LLM Leaderboard | Toloka LLM Leadorboard هو معيار لتقييم LLMs استنادًا إلى مطالبات المستخدم الأصلية والتقييم البشري الخبير. |
طاولة أدوات | Toolbench هي منصة للتدريب والخدمة وتقييم LLMs خصيصًا لتعلم الأدوات. |
المتصدرين السمية | يقيم لوحة المتصدرين السمية سمية LLMs. |
Trustbit LLM المتصدرين | Trustbit LLM المتصدرون هي منصة توفر معايير لبناء وشحن منتجات LLMs. |
Trustllm | Trustllm هو معيار لتقييم جدارة LLMs. |
TuringAdvice | TuringAdvice هو معيار لتقييم قدرة نماذج اللغة على توليد نصيحة مفيدة للمواقف الواقعية والمفتوحة. |
TUTOREVAL | Tusoreval هو معيار لإجازة الأسئلة يقيم مدى جودة تعليم LLM للمستخدم على فهم فصل من كتاب علمي. |
تي | T-Eval هو معيار لتقييم قدرة استخدام الأداة لـ LLMs. |
ugi المتصدرين | يقيس UGI المتصدرين ويقارن المعلومات غير الخاضعة للرقابة والمثيرة للجدل المعروفة بواسطة LLMS. |
Ultraeval | Ultraeval هو إطار مفتوح المصدر للمعايير الشفافة والقابلة للتكرار لـ LLMs عبر أبعاد الأداء المختلفة. |
فالز AI | Vals AI عبارة عن منصة لتقييم دقة وفعالية الذكاء الاصطناعي في المهام القانونية في العالم الحقيقي. |
جهاز فيديو | يعتبر Visual Comminense Reasoning (VCR) معيارًا للفهم البصري على مستوى الإدراك ، ويتطلب نماذج للإجابة على الأسئلة البصرية وتقديم المأساة لإجاباتها. |
فيدور | Vidore هو معيار لتقييم نماذج الاسترجاع على قدرتها على مطابقة الاستعلامات مع المستندات ذات الصلة على مستوى الصفحة. |
VLLMS المتصدرين | تهدف VLLMS Leaderboard إلى تتبع ورتبة وتقييم LLMs Open و chatbots. |
vmlu | VMLU هو معيار لتقييم القدرات الإجمالية لنماذج الأساس باللغة الفيتنامية. |
Wildbench | Wildbench هو معيار لتقييم نماذج اللغة على المهام الصعبة التي تشبه عن كثب التطبيقات في العالم الحقيقي. |
Xiezhi | Xiezhi هو معيار لتقييم معرفة المجال الشامل لـ LLMs. |
yanolja الساحة | تستضيف Yanolja Arena ساحة نموذجية لتقييم قدرات LLMS في تلخيص النص وترجمته. |
بعد لوحة المتصدرين LLM أخرى | متصدر LLM آخر هو منصة لتتبع وتصنيف وتقييم LLMs Open و chatbots. |
zebralogic | Zebralogic هو معيار يقييم التفكير المنطقي لـ LLMS باستخدام الألغاز الشبكية المنطقية ، وهو نوع من مشكلة رضا القيد (CSP). |
Zerosumeval | Zerosumeval هو إطار تقييم تنافسي لـ LLMs باستخدام عمليات محاكاة متعددة اللاعبين مع ظروف فوز واضحة. |