"التعلم غير المتوازن" عبارة عن حزمة بيثون تقدم عددًا من تقنيات إعادة أخذ العينات شائعة الاستخدام في مجموعات البيانات والتي تظهر اختلالًا قويًا بين الفئات. وهو متوافق مع scikit-learn وهو جزء من مشاريع scikit-learn-contrib.
يمكن العثور على وثائق التثبيت ووثائق API والأمثلة في الوثائق.
يتطلب التعلم غير المتوازن التبعيات التالية:
بايثون (>= 3.10)
نومبي (>= 1.24.3)
سيبي (>= 1.10.1)
تعلم Scikit (>= 1.2.2)
بيتيست (>= 7.2.2)
بالإضافة إلى ذلك، يتطلب التعلم غير المتوازن التبعيات الاختيارية التالية:
الباندا (>= 1.5.3) للتعامل مع إطارات البيانات
Tensorflow (>= 2.13.1) للتعامل مع نماذج TensorFlow
Keras (>= 3.0.5) للتعامل مع نماذج Keras
سوف تتطلب الأمثلة التبعيات الإضافية التالية:
ماتبلوتليب (>= 3.7.3)
سيبورن (>= 0.12.2)
التعلم غير المتوازن متاح حاليًا في مستودعات PyPi ويمكنك تثبيته عبر النقطة:
تثبيت النقطة -U غير متوازن - التعلم
يتم إصدار الحزمة أيضًا في منصة Anaconda Cloud:
conda install -c conda-forge تعلم غير متوازن
إذا كنت تفضل ذلك، يمكنك استنساخه وتشغيل ملف setup.py. استخدم الأوامر التالية للحصول على نسخة من Github وتثبيت جميع التبعيات:
استنساخ بوابة https://github.com/scikit-learn-contrib/imbalanced-learn.git مؤتمر نزع السلاح غير متوازن التعلم تثبيت النقطة .
انتبه إلى أنه يمكنك التثبيت في وضع المطور باستخدام:
تثبيت النقطة --بدون عزل البناء --قابل للتحرير .
إذا كنت ترغب في تقديم طلبات السحب على GitHub، فننصحك بتثبيت الالتزام المسبق:
تثبيت النقطة مسبقًا التثبيت المسبق
بعد التثبيت، يمكنك استخدام pytest لتشغيل مجموعة الاختبار:
جعل التغطية
يتماشى تطوير مساهمة scikit-Learn هذه مع مجتمع scikit-Learn. لذلك، يمكنك الرجوع إلى دليل التطوير الخاص بهم.
نحن نؤيد الممارسات الجيدة من تنسيق النظام البيئي العلمي لـ Python (SPEC). القائمة الكاملة للتوصيات متاحة هنا.
انظر أدناه قائمة التوصيات التي نؤيدها لمشروع التعلم غير المتوازن.
إذا كنت تستخدم التعلم غير المتوازن في منشور علمي، فنحن نقدر الاستشهاد بالمقالة التالية:
@المقالة{JMLR:الآية ١٨: ١٦-٣٦٥، المؤلف = {غيوم ليما {{^i}}tre وفرناندو نوغيرا وكريستوس ك. أريداس}، title = {التعلم غير المتوازن: مجموعة أدوات بايثون لمعالجة لعنة مجموعات البيانات غير المتوازنة في التعلم الآلي}، مجلة = {مجلة أبحاث التعلم الآلي}، العام = {2017}، الحجم = {18}، الرقم = {17}، الصفحات = {1-5}، رابط = {http://jmlr.org/papers/v18/16-365} }
لن تعمل معظم خوارزميات التصنيف على النحو الأمثل إلا عندما يكون عدد عينات كل فئة هو نفسه تقريبًا. أثبتت مجموعات البيانات شديدة الانحراف، حيث يفوق عدد الأقلية بشكل كبير فئة واحدة أو أكثر، أنها تمثل تحديًا بينما أصبحت في الوقت نفسه أكثر شيوعًا.
تتمثل إحدى طرق معالجة هذه المشكلة في إعادة أخذ عينات من مجموعة البيانات لتعويض هذا الخلل على أمل التوصل إلى حدود قرار أكثر قوة وعدالة مما قد تفعله بطريقة أخرى.
يمكنك الرجوع إلى وثائق التعلم غير المتوازن للعثور على تفاصيل حول الخوارزميات المطبقة.