"إن أحد أهم أهداف التعلم الآلي هو أتمتة المزيد والمزيد من العمليات الهندسية المميزة." - بيدرو دومينغوس، بعض الأشياء المفيدة التي يجب معرفتها حول التعلم الآلي
Featurestools هي مكتبة بيثون لهندسة الميزات الآلية. راجع الوثائق لمزيد من المعلومات.
التثبيت بالنقطة
python -m pip install featuretools
أو من قناة Conda-forge على conda:
conda install -c conda-forge featuretools
يمكنك تثبيت الوظائف الإضافية بشكل فردي أو كلها مرة واحدة عن طريق تشغيل:
python -m pip install "featuretools[complete]"
البدائيات المميزة - استخدم البدائيات المميزة من مستودع البدائيات المميزة
python -m pip install "featuretools[premium]"
أساسيات البرمجة اللغوية العصبية - استخدم بدايات اللغة الطبيعية من مستودع أساسيات البرمجة اللغوية العصبية
python -m pip install "featuretools[nlp]"
دعم Dask - استخدم Dask لتشغيل DFS مع njobs > 1
python -m pip install "featuretools[dask]"
فيما يلي مثال على استخدام التوليف العميق للميزات (DFS) لإجراء هندسة الميزات التلقائية. في هذا المثال، نقوم بتطبيق DFS على مجموعة بيانات متعددة الجداول تتكون من معاملات العملاء ذات الطابع الزمني.
>> import featuretools as ft
>> es = ft . demo . load_mock_customer ( return_entityset = True )
>> es . plot ()
يمكن لـ Featurestools إنشاء جدول واحد من الميزات تلقائيًا لأي "إطار بيانات مستهدف"
>> feature_matrix , features_defs = ft . dfs ( entityset = es , target_dataframe_name = "customers" )
>> feature_matrix . head ( 5 )
zip_code COUNT(transactions) COUNT(sessions) SUM(transactions.amount) MODE(sessions.device) MIN(transactions.amount) MAX(transactions.amount) YEAR(join_date) SKEW(transactions.amount) DAY(join_date) ... SUM(sessions.MIN(transactions.amount)) MAX(sessions.SKEW(transactions.amount)) MAX(sessions.MIN(transactions.amount)) SUM(sessions.MEAN(transactions.amount)) STD(sessions.SUM(transactions.amount)) STD(sessions.MEAN(transactions.amount)) SKEW(sessions.MEAN(transactions.amount)) STD(sessions.MAX(transactions.amount)) NUM_UNIQUE(sessions.DAY(session_start)) MIN(sessions.SKEW(transactions.amount))
customer_id ...
1 60091 131 10 10236.77 desktop 5.60 149.95 2008 0.070041 1 ... 169.77 0.610052 41.95 791.976505 175.939423 9.299023 -0.377150 5.857976 1 -0.395358
2 02139 122 8 9118.81 mobile 5.81 149.15 2008 0.028647 20 ... 114.85 0.492531 42.96 596.243506 230.333502 10.925037 0.962350 7.420480 1 -0.470007
3 02139 78 5 5758.24 desktop 6.78 147.73 2008 0.070814 10 ... 64.98 0.645728 21.77 369.770121 471.048551 9.819148 -0.244976 12.537259 1 -0.630425
4 60091 111 8 8205.28 desktop 5.73 149.56 2008 0.087986 30 ... 83.53 0.516262 17.27 584.673126 322.883448 13.065436 -0.548969 12.738488 1 -0.497169
5 02139 58 4 4571.37 tablet 5.91 148.17 2008 0.085883 19 ... 73.09 0.830112 27.46 313.448942 198.522508 8.950528 0.098885 5.599228 1 -0.396571
[5 rows x 69 columns]
لدينا الآن ناقل ميزات لكل عميل يمكن استخدامه للتعلم الآلي. راجع الوثائق الخاصة بتوليف الميزات العميقة لمزيد من الأمثلة.
تحتوي أدوات الميزة على العديد من الأنواع المختلفة من العناصر الأولية المضمنة لإنشاء الميزات. إذا لم يتم تضمين العناصر الأولية التي تحتاجها، فإن ميزة Featurestools تتيح لك أيضًا تحديد العناصر الأولية المخصصة الخاصة بك.
توقع الشراء القادم
المستودع | دفتر الملاحظات
في هذا العرض التوضيحي، نستخدم مجموعة بيانات متعددة الجداول تضم 3 ملايين طلب بقالة عبر الإنترنت من Instacart للتنبؤ بما سيشتريه العميل بعد ذلك. نعرض كيفية إنشاء الميزات باستخدام هندسة الميزات التلقائية وإنشاء مسار دقيق للتعلم الآلي باستخدام أدوات الميزات، والتي يمكن إعادة استخدامها لمشكلات التنبؤ المتعددة. بالنسبة للمستخدمين الأكثر تقدمًا، نعرض كيفية توسيع نطاق هذا المسار إلى مجموعة بيانات كبيرة باستخدام Dask.
لمزيد من الأمثلة حول كيفية استخدام أدوات الميزات، راجع صفحة العروض التوضيحية الخاصة بنا.
يرحب مجتمع Featurestools بطلبات السحب. تعليمات الاختبار والتطوير متوفرة هنا.
يسعد مجتمع Featurestools بتقديم الدعم لمستخدمي Featurestools. يمكن العثور على دعم المشروع في أربعة أماكن حسب نوع السؤال:
featuretools
.إذا كنت تستخدم أدوات الميزة، فيرجى مراعاة الاستشهاد بالمقالة التالية:
جيمس ماكس كانتر، كاليان فيراماتشانيني. توليف الميزات العميقة: نحو أتمتة مساعي علوم البيانات معهد مهندسي الكهرباء والإلكترونيات DSAA 2015 .
إدخال BibTeX:
@inproceedings { kanter2015deep ,
author = { James Max Kanter and Kalyan Veeramachaneni } ,
title = { Deep feature synthesis: Towards automating data science endeavors } ,
booktitle = { 2015 {IEEE} International Conference on Data Science and Advanced Analytics, DSAA 2015, Paris, France, October 19-21, 2015 } ,
pages = { 1--10 } ,
year = { 2015 } ,
organization = { IEEE }
}
Featurestools هو مشروع مفتوح المصدر تديره شركة Alteryx. لرؤية المشاريع الأخرى مفتوحة المصدر التي نعمل عليها، تفضل بزيارة Alteryx Open Source. إذا كان بناء خطوط أنابيب مؤثرة لعلوم البيانات أمرًا مهمًا بالنسبة لك أو لشركتك، فيرجى الاتصال بنا.