الموقع الإلكتروني للمشروع • الميزات الرئيسية • كيفية الاستخدام • مجموعات البيانات المعيارية • دعم المجتمع • المساهمة • المهمة • الترخيص
قم بإلقاء نظرة على صفحتنا الرسمية للحصول على وثائق المستخدم والأمثلة: langtest.org
يأتي LangTest مزودًا بمجموعات بيانات مختلفة لاختبار نماذجك، ويغطي نطاقًا واسعًا من حالات الاستخدام وسيناريوهات التقييم. يمكنك استكشاف جميع مجموعات البيانات المعيارية المتوفرة هنا، والتي تم تصميم كل منها بدقة لتحدي نماذج اللغة الخاصة بك وتحسينها. سواء كنت تركز على الإجابة على الأسئلة أو تلخيص النص وما إلى ذلك، فإن LangTest يضمن حصولك على البيانات الصحيحة لدفع نماذجك إلى أقصى حدودها وتحقيق أعلى مستوى من الأداء في المهام اللغوية المتنوعة.
# Install langtest
!p ip install langtest [ transformers ]
# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })
# Generate test cases, run them and view a report
h . generate (). run (). report ()
ملاحظة: لمزيد من الأمثلة الموسعة للاستخدام والتوثيق، توجه إلى langtest.org
يمكنك الاطلاع على مقالات LangTest التالية:
مدونة | وصف |
---|---|
اختبار التحيز الديموغرافي تلقائيًا في خطط العلاج السريري الناتجة عن نماذج لغوية كبيرة | يساعد في فهم واختبار التحيز الديموغرافي في خطط العلاج السريري التي أنشأتها LLM. |
LangTest: الكشف عن التحيزات وإصلاحها من خلال خطوط أنابيب البرمجة اللغوية العصبية الشاملة | يعمل خط اللغة الشامل في LangTest على تمكين ممارسي البرمجة اللغوية العصبية من معالجة التحيزات في نماذج اللغة من خلال نهج شامل ومعتمد على البيانات ومتكرر. |
ما وراء الدقة: اختبار المتانة لنماذج التعرف على الكيانات المسماة باستخدام LangTest | في حين أن الدقة أمر بالغ الأهمية بلا شك، فإن اختبار المتانة يأخذ تقييم نماذج معالجة اللغة الطبيعية (NLP) إلى المستوى التالي من خلال ضمان أن النماذج يمكن أن تعمل بشكل موثوق ومتسق عبر مجموعة واسعة من ظروف العالم الحقيقي. |
ارفع مستوى نماذج البرمجة اللغوية العصبية لديك من خلال زيادة البيانات تلقائيًا لتحسين الأداء | في هذه المقالة، نناقش كيف يمكن أن تؤدي زيادة البيانات الآلية إلى تحسين نماذج البرمجة اللغوية العصبية لديك وتحسين أدائها وكيف نفعل ذلك باستخدام LangTest. |
التخفيف من الصور النمطية المهنية بين الجنسين في الذكاء الاصطناعي: تقييم النماذج باستخدام اختبار تحيز Wino من خلال مكتبة Langtest | في هذه المقالة، نناقش كيف يمكننا اختبار "التحيز تجاه الوينو" باستخدام LangTest. وهو يشير على وجه التحديد إلى اختبار التحيزات الناشئة عن الصور النمطية المهنية بين الجنسين. |
أتمتة الذكاء الاصطناعي المسؤول: دمج الوجه المعانق وLangTest للحصول على نماذج أكثر قوة | في هذه المقالة، اكتشفنا التكامل بين Hugging Face، مصدرك المفضل لأحدث نماذج البرمجة اللغوية العصبية ومجموعات البيانات، وLangTest، السلاح السري لخط أنابيب البرمجة اللغوية العصبية للاختبار والتحسين. |
اكتشاف وتقييم تحيز التملق: تحليل لحلول LLM والذكاء الاصطناعي | في منشور المدونة هذا، نناقش القضية المنتشرة حول سلوك الذكاء الاصطناعي المتملق والتحديات التي يمثلها في عالم الذكاء الاصطناعي. نستكشف كيف تعطي نماذج اللغة أحيانًا الأولوية للاتفاق على الأصالة، مما يعيق المحادثات الهادفة وغير المتحيزة. علاوة على ذلك، فإننا نكشف النقاب عن حل محتمل لتغيير قواعد اللعبة لهذه المشكلة، وهو البيانات الاصطناعية، التي تعد بإحداث ثورة في الطريقة التي يشارك بها رفاق الذكاء الاصطناعي في المناقشات، مما يجعلها أكثر موثوقية ودقة عبر مختلف ظروف العالم الحقيقي. |
الكشف عن حساسية نموذج اللغة في تقييمات النفي والسمية | في منشور المدونة هذا، نتعمق في حساسية نموذج اللغة، ونفحص كيفية تعامل النماذج مع حالات النفي والسمية في اللغة. من خلال هذه الاختبارات، نكتسب نظرة ثاقبة حول قدرة النماذج على التكيف والاستجابة، مع التركيز على الحاجة المستمرة للتحسين في نماذج البرمجة اللغوية العصبية. |
الكشف عن التحيز في نماذج اللغة: الجنس والعرق والإعاقة والمنظورات الاجتماعية والاقتصادية | في منشور المدونة هذا، نستكشف التحيز في نماذج اللغة، مع التركيز على الجنس والعرق والإعاقة والعوامل الاجتماعية والاقتصادية. نقوم بتقييم هذا التحيز باستخدام مجموعة بيانات CrowS-Pairs، المصممة لقياس التحيزات النمطية. ولمعالجة هذه التحيزات، نناقش أهمية أدوات مثل LangTest في تعزيز العدالة في أنظمة البرمجة اللغوية العصبية. |
كشف التحيزات داخل الذكاء الاصطناعي: كيف يشكل الجنس والعرق والدين والاقتصاد البرمجة اللغوية العصبية وما بعدها | في منشور المدونة هذا، نتناول تحيز الذكاء الاصطناعي حول كيفية تشكيل أنظمة البرمجة اللغوية العصبية (NLP) بسبب الجنس والعرق والدين والاقتصاد. ناقشنا استراتيجيات الحد من التحيز وتعزيز العدالة في أنظمة الذكاء الاصطناعي. |
تقييم نماذج اللغات الكبيرة على الصور النمطية المهنية بين الجنسين باستخدام اختبار تحيز Wino | في منشور المدونة هذا، نتعمق في اختبار مجموعة بيانات WinoBias على LLMs، وفحص تعامل النماذج اللغوية مع الأدوار الجنسانية والمهنية، ومقاييس التقييم، والآثار الأوسع. دعونا نستكشف تقييم نماذج اللغة باستخدام LangTest على مجموعة بيانات WinoBias ونواجه تحديات معالجة التحيز في الذكاء الاصطناعي. |
تبسيط سير عمل تعلم الآلة: دمج تتبع MLFlow مع LangTest لتقييمات النماذج المحسنة | في منشور المدونة هذا، نتعمق في الحاجة المتزايدة إلى تتبع شفاف ومنهجي وشامل للنماذج. أدخل MLFlow وLangTest: أداتان، عند دمجهما، تنشئان نهجًا ثوريًا لتطوير تعلم الآلة. |
اختبار قدرات الإجابة على الأسئلة في النماذج اللغوية الكبيرة | في منشور المدونة هذا، نتعمق في تعزيز قدرات تقييم ضمان الجودة باستخدام مكتبة LangTest. استكشف طرق التقييم المختلفة التي تقدمها LangTest لمعالجة تعقيدات تقييم مهام الإجابة على الأسئلة (QA). |
تقييم انحياز الصورة النمطية باستخدام LangTest | في منشور المدونة هذا، نركز على استخدام مجموعة بيانات StereoSet لتقييم التحيز المتعلق بالجنس والمهنة والعرق. |
اختبار متانة نماذج تحليل المشاعر القائمة على LSTM | اكتشف قوة النماذج المخصصة باستخدام LangTest Insights. |
رؤى LangTest: الغوص العميق في متانة LLM على OpenBookQA | اكتشف قوة نماذج اللغة (LLMs) في مجموعة بيانات OpenBookQA باستخدام LangTest Insights. |
LangTest: سلاح سري لتحسين متانة نماذج لغة المحولات الخاصة بك | اكتشف قوة نماذج لغة المحولات باستخدام LangTest Insights. |
إتقان تقييم النموذج: تقديم نظام التصنيف الشامل والمتصدرين في LangTest | يقدم نظام تصنيف النماذج والمتصدرين من شركة LangTest التابعة لـ John Snow Labs منهجًا منهجيًا لتقييم نماذج الذكاء الاصطناعي من خلال تصنيف شامل ومقارنات تاريخية ورؤى خاصة بمجموعة البيانات، مما يمكّن الباحثين وعلماء البيانات من اتخاذ قرارات تعتمد على البيانات بشأن أداء النموذج. |
تقييم الاستجابات الطويلة باستخدام Prometheus-Eval وLangtest | تتحد Prometheus-Eval وLangTest لتقديم حل مفتوح المصدر وموثوق وفعال من حيث التكلفة لتقييم الاستجابات الطويلة، والجمع بين أداء Prometheus's GPT-4 وإطار اختبار LangTest القوي لتوفير تعليقات مفصلة وقابلة للتفسير ودقة عالية في التقييمات. |
ضمان دقة ماجستير إدارة الأعمال في المجال الطبي: التحدي المتمثل في تبادل أسماء الأدوية | يعد التحديد الدقيق لاسم الدواء أمرًا بالغ الأهمية لسلامة المرضى. كشف اختبار GPT-4o باستخدام اختبار تحويل Drug_generic_to_brand الخاص بـ LangTest عن أخطاء محتملة في التنبؤ بأسماء الأدوية عندما يتم استبدال أسماء العلامات التجارية بمكونات، مما يسلط الضوء على الحاجة إلى التحسين المستمر والاختبارات الصارمة لضمان دقة وموثوقية LLM الطبية. |
ملاحظة للتحقق من جميع المدونات، انتقل إلى المدونات
#langtest
وفي حين أن هناك الكثير من الأحاديث حول الحاجة إلى تدريب نماذج الذكاء الاصطناعي الآمنة والقوية والعادلة، إلا أنه لم يتم توفير سوى القليل من الأدوات لعلماء البيانات لتحقيق هذه الأهداف. ونتيجة لذلك، فإن الخط الأمامي لنماذج البرمجة اللغوية العصبية في أنظمة الإنتاج يعكس حالة مؤسفة.
نقترح هنا مشروعًا مجتمعيًا مفتوح المصدر في مرحلة مبكرة يهدف إلى سد هذه الفجوة، ونود أن تنضم إلينا في هذه المهمة. ونحن نهدف إلى البناء على الأساس الذي وضعته الأبحاث السابقة مثل ريبيرو وآخرون. (2020)، سونغ وآخرون. (2020)، باريش وآخرون. (2021)، فان أكين وآخرون. (2021) وغيرها الكثير.
لدى John Snow Labs فريق تطوير كامل مخصص للمشروع وهو ملتزم بتحسين المكتبة لسنوات، كما نفعل مع المكتبات الأخرى مفتوحة المصدر. توقع إصدارات متكررة مع أنواع الاختبار والمهام واللغات والأنظمة الأساسية الجديدة التي سيتم إضافتها بانتظام. نحن نتطلع إلى العمل معًا لجعل البرمجة اللغوية العصبية (NLP) الآمنة والموثوقة والمسؤولة واقعًا يوميًا.
ملاحظة للاستخدام والتوثيق، توجه إلى langtest.org
نرحب بجميع أنواع المساهمات:
يمكن العثور على نظرة عامة مفصلة عن المساهمة في دليل المساهمة .
إذا كنت تتطلع إلى بدء العمل باستخدام قاعدة بيانات LangTest، فانتقل إلى علامة التبويب "مشكلات" GitHub وابدأ في البحث عن المشكلات المثيرة للاهتمام. هناك عدد من المشكلات المدرجة ضمن المكان الذي يمكنك البدء فيه. أو ربما من خلال استخدام LangTest تكون لديك فكرة خاصة بك أو تبحث عن شيء ما في الوثائق وتفكر "يمكن تحسين هذا"...يمكنك فعل شيء حيال ذلك!
لا تتردد في طرح الأسئلة في مناقشات الأسئلة والأجوبة.
باعتبارك مساهمين ومشرفين على هذا المشروع، يُتوقع منك الالتزام بقواعد سلوك LangTest. يمكن العثور على مزيد من المعلومات على: قواعد سلوك المساهم
لقد قمنا بنشر ورقة يمكنك الاستشهاد بها لمكتبة LangTest:
@article { nazir2024langtest ,
title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
journal = { Software Impacts } ,
pages = { 100619 } ,
year = { 2024 } ,
publisher = { Elsevier }
}
نود أن نشكر جميع المساهمين في هذا المشروع المجتمعي مفتوح المصدر.
تم إصدار LangTest بموجب ترخيص Apache 2.0، الذي يضمن الاستخدام التجاري والتعديل والتوزيع واستخدام براءات الاختراع والاستخدام الخاص ويضع قيودًا على استخدام العلامات التجارية والمسؤولية والضمان.