تنزيل rtdl num embeddings - تنزيل rtdl num embeddings كود المصدر

rtdl num embeddings

كود الذكاء الاصطناعي

v0.0.11

تنزيل

حول تضمين الميزات العددية في التعلم العميق الجدولي (NeurIPS 2022)

مهم

تحقق من نموذج DL الجدولي الجديد: TabM

أرخايف؟ حزمة بايثون مشاريع DL الجدولية الأخرى

هذا هو التنفيذ الرسمي للورقة "حول تضمين الميزات العددية في التعلم العميق الجدولي".

ليرة تركية؛ د

في جملة واحدة: تحويل الميزات العددية المستمرة الأصلية إلى متجهات قبل مزجها في العمود الفقري الرئيسي (على سبيل المثال في MLP، Transformer، وما إلى ذلك) يؤدي إلى تحسين الأداء النهائي للشبكات العصبية الجدولية.

على اليسار: تأخذ Vanilla MLP ميزتين متواصلتين كمدخلات.
على اليمين: نفس MLP، ولكن الآن مع تضمينات للميزات المستمرة.

بمزيد من التفاصيل:

إن تضمين السمات المستمرة يعني تحويلها من تمثيلات عددية إلى متجهات قبل مزجها في العمود الفقري الرئيسي كما هو موضح أعلاه.
لقد اتضح أن تضمينات الميزات المستمرة يمكنها (بشكل كبير) تحسين أداء نماذج DL الجدولية .
تنطبق التضمينات على أي عمود فقري تقليدي .
على وجه الخصوص، يمكن لـ MLP البسيط مع التضمينات أن يكون منافسًا للنماذج الثقيلة المعتمدة على Transormer بينما يكون أكثر كفاءة بشكل ملحوظ.
على الرغم من النفقات الرسمية من حيث عدد المعلمات، في الممارسة العملية، تكون عمليات التضمين ميسورة التكلفة تمامًا في كثير من الحالات . في مجموعات البيانات الكبيرة بما فيه الكفاية و/أو التي تحتوي على عدد كبير بما يكفي من الميزات و/أو مع متطلبات زمن الوصول الصارمة بما فيه الكفاية، قد يصبح الحمل الجديد المرتبط بعمليات التضمين مشكلة.

لماذا تعمل التضمينات؟

بالمعنى الدقيق للكلمة، لا يوجد تفسير واحد. من الواضح أن التضمينات تساعد في التعامل مع التحديات المختلفة المرتبطة بالميزات المستمرة وتحسين خصائص التحسين الشاملة للنماذج.

على وجه الخصوص، تعد السمات المستمرة الموزعة بشكل غير منتظم (وتوزيعاتها المشتركة غير المنتظمة مع التسميات) أمرًا معتادًا في البيانات الجدولية في العالم الحقيقي، وهي تشكل تحديًا أساسيًا كبيرًا للتحسين لنماذج DL الجدولية التقليدية. مرجع رائع لفهم هذا التحدي (ومثال رائع لمعالجة تلك التحديات عن طريق تحويل مساحة الإدخال) هو الورقة البحثية "ميزات فورييه تسمح للشبكات بتعلم وظائف التردد العالي في المجالات منخفضة الأبعاد".

ومع ذلك، فمن غير الواضح ما إذا كانت التوزيعات غير المنتظمة هي السبب الوحيد الذي يجعل التضمينات مفيدة.

حزمة بايثون

تعد حزمة Python الموجودة في package/ الحزمة هي الطريقة الموصى بها لاستخدام الورقة في الممارسة العملية وفي العمل المستقبلي.

بقية الوثيقة :

المقاييس والمعلمات الفائقة
كيفية إعادة إنتاج النتائج المبلغ عنها
كيفية الاستشهاد

كيفية استكشاف المقاييس والمعلمات الفائقة

يحتوي دليل exp/ على نتائج عديدة ومعلمات تشعبية (مضبوطة) لمختلف النماذج ومجموعات البيانات المستخدمة في الورقة.

المقاييس

على سبيل المثال، دعنا نستكشف مقاييس نموذج MLP. لنقم أولاً بتحميل التقارير (ملفات report.json ):

 import json
from pathlib import Path

import pandas as pd

df = pd . json_normalize ([
    json . loads ( x . read_text ())
    for x in Path ( 'exp' ). glob ( 'mlp/*/0_evaluation/*/report.json' )
])

الآن، لكل مجموعة بيانات، دعونا نحسب متوسط درجات الاختبار على جميع البذور العشوائية:

 print ( df . groupby ( 'config.data.path' )[ 'metrics.test.score' ]. mean (). round ( 3 ))

يتطابق الإخراج تمامًا مع الجدول 3 من الورقة:

 config.data.path
data/adult              0.854
data/california        -0.495
data/churn              0.856
data/covtype            0.964
data/fb-comments       -5.686
data/gesture            0.632
data/higgs-small        0.720
data/house         -32039.399
data/microsoft         -0.747
data/otto               0.818
data/santander          0.912
Name: metrics.test.score, dtype: float64

المعلمات الفائقة

يمكن أيضًا استخدام الطريقة المذكورة أعلاه لاستكشاف المعلمات الفائقة للتعرف على قيم المعلمات الفائقة النموذجية للخوارزميات المختلفة. على سبيل المثال، هذه هي الطريقة التي يمكن بها حساب متوسط معدل التعلم المضبوط لنموذج MLP:

ملحوظة

بالنسبة لبعض الخوارزميات (مثل MLP، MLP-LR، MLP-PLR)، تقدم المشاريع الأحدث المزيد من النتائج التي يمكن استكشافها بطريقة مماثلة. على سبيل المثال، راجع هذه الورقة على TabR.

تحذير

استخدم هذا النهج بحذر. عند دراسة قيم المعلمات الفائقة:

احذر من القيم المتطرفة.
ألقِ نظرة على القيم الأولية غير المجمعة للتعرف على القيم النموذجية.
للحصول على نظرة عامة عالية المستوى، قم برسم التوزيع و/أو حساب الكميات المتعددة.

 print ( df [ df [ 'config.seed' ] == 0 ][ 'config.training.lr' ]. quantile ( 0.5 ))
# Output: 0.0002716544410603358

كيفية إعادة إنتاج النتائج

مهم

هذا القسم طويل. استخدم ميزة "المخطط التفصيلي" على GitHub في محرر النصوص الخاص بك للحصول على نظرة عامة على هذا القسم.

قم بإعداد البيئة

برمجة

التصفيات:

قد تحتاج إلى تغيير الأوامر والإعدادات المتعلقة بـ CUDA أدناه وفقًا لإعدادك
تأكد من أن /usr/local/cuda-11.1/bin موجود دائمًا في متغير بيئة PATH الخاص بك
قم بتثبيت كوندا

 export PROJECT_DIR= < ABSOLUTE path to the repository root >
# example: export PROJECT_DIR=/home/myusername/repositories/num-embeddings
git clone https://github.com/yandex-research/tabular-dl-num-embeddings $PROJECT_DIR
cd $PROJECT_DIR

conda create -n num-embeddings python=3.9.7
conda activate num-embeddings

pip install torch==1.10.1+cu111 -f https://download.pytorch.org/whl/torch_stable.html
pip install -r requirements.txt

# if the following commands do not succeed, update conda
conda env config vars set PYTHONPATH= ${PYTHONPATH} : ${PROJECT_DIR}
conda env config vars set PROJECT_DIR= ${PROJECT_DIR}
# the following command appends ":/usr/local/cuda-11.1/lib64" to LD_LIBRARY_PATH;
# if your LD_LIBRARY_PATH already contains a path to some other CUDA, then the content
# after "=" should be "<your LD_LIBRARY_PATH without your cuda path>:/usr/local/cuda-11.1/lib64"
conda env config vars set LD_LIBRARY_PATH= ${LD_LIBRARY_PATH} :/usr/local/cuda-11.1/lib64
conda env config vars set CUDA_HOME=/usr/local/cuda-11.1
conda env config vars set CUDA_ROOT=/usr/local/cuda-11.1

# (optional) get a shortcut for toggling the dark mode with cmd+y
conda install nodejs
jupyter labextension install jupyterlab-theme-toggle

conda deactivate
conda activate num-embeddings

بيانات

الترخيص: من خلال تنزيل مجموعة البيانات الخاصة بنا، فإنك توافق على تراخيص جميع مكوناتها. ولا نفرض أي قيود جديدة بالإضافة إلى تلك التراخيص. يمكنك العثور على قائمة المصادر في الورقة.

 cd $PROJECT_DIR
wget " https://www.dropbox.com/s/r0ef3ij3wl049gl/data.tar?dl=1 " -O num_embeddings_data.tar
tar -xvf num_embeddings_data.tar

كيفية إعادة إنتاج النتائج

يستنسخ الكود أدناه نتائج MLP في مجموعة بيانات الإسكان في كاليفورنيا. إن خط الأنابيب للخوارزميات ومجموعات البيانات الأخرى هو نفسه تمامًا.

 # You must explicitly set CUDA_VISIBLE_DEVICES if you want to use GPU
export CUDA_VISIBLE_DEVICES="0"

# Create a copy of the 'official' config
cp exp/mlp/california/0_tuning.toml exp/mlp/california/1_tuning.toml

# Run tuning (on GPU, it takes ~30-60min)
python bin/tune.py exp/mlp/california/1_tuning.toml

# Evaluate single models with 15 different random seeds
python bin/evaluate.py exp/mlp/california/1_tuning 15

# Evaluate ensembles (by default, three ensembles of size five each)
python bin/ensemble.py exp/mlp/california/1_evaluation

يوضح قسم "المقاييس" كيفية تلخيص النتائج التي تم الحصول عليها.

فهم المستودع

نظرة عامة على الكود

يتم تنظيم الكود على النحو التالي:

bin
- train4.py للشبكات العصبية (ينفذ جميع التضمينات والأعمدة الأساسية من الورقة)
- xgboost_.py لـ XGBoost
- catboost_.py لـ CatBoost
- tune.py للضبط
- evaluate.py للتقييم
- ensemble.py للتجميع
- تم استخدام datasets.py لإنشاء تقسيمات مجموعة البيانات
- synthetic.py لإنشاء مجموعات البيانات الاصطناعية الصديقة لـ GBDT
- train1_synthetic.py للتجارب مع البيانات الاصطناعية
يحتوي lib على الأدوات الشائعة التي تستخدمها البرامج الموجودة في bin
يحتوي exp على تكوينات التجربة ونتائجها (المقاييس والتكوينات المضبوطة وما إلى ذلك). تتبع أسماء المجلدات المتداخلة الأسماء الموجودة في الورقة (على سبيل المثال: يتوافق exp/mlp-plr مع نموذج MLP-PLR من الورقة).
تحتوي package على حزمة بايثون لهذه الورقة

ملاحظات فنية

يجب عليك تعيين CUDA_VISIBLE_DEVICES بشكل صريح عند تشغيل البرامج النصية
لحفظ التكوينات وتحميلها، استخدم lib.dump_config و lib.load_config بدلاً من مكتبات TOML العارية

تشغيل البرامج النصية

النمط الشائع لتشغيل البرامج النصية هو:

python bin/my_script.py a/b/c.toml

حيث a/b/c.toml هو ملف تكوين الإدخال (config). سيكون الإخراج موجودًا في a/b/c . تتبع بنية التكوين عادةً فئة Config من bin/my_script.py .

هناك أيضًا نصوص برمجية تأخذ وسيطات سطر الأوامر بدلاً من التكوينات (على سبيل المثال bin/{evaluate.py,ensemble.py} ).

Train0.py مقابل Train1.py مقابل Train3.py مقابل Train4.py

أنت بحاجة إليها جميعًا لإعادة إنتاج النتائج، لكنك تحتاج فقط إلى train4.py للعمل المستقبلي، للأسباب التالية:

ينفذ bin/train1.py مجموعة شاملة من الميزات من bin/train0.py
ينفذ bin/train3.py مجموعة شاملة من الميزات من bin/train1.py
ينفذ bin/train4.py مجموعة شاملة من الميزات من bin/train3.py

لمعرفة أي واحد من البرامج النصية الأربعة تم استخدامه لتشغيل تجربة معينة، تحقق من حقل "البرنامج" لتكوين الضبط المقابل. على سبيل المثال، إليك تكوين الضبط لـ MLP في مجموعة بيانات California Housing: exp/mlp/california/0_tuning.toml . يشير التكوين إلى أنه تم استخدام bin/train0.py . هذا يعني أن التكوينات الموجودة في exp/mlp/california/0_evaluation متوافقة بشكل خاص مع bin/train0.py . للتحقق من ذلك، يمكنك نسخ أحدهما إلى موقع منفصل وتمريره إلى bin/train0.py :

 mkdir exp/tmp
cp exp/mlp/california/0_evaluation/0.toml exp/tmp/0.toml
python bin/train0.py exp/tmp/0.toml
ls exp/tmp/0

كيفية الاستشهاد

 @inproceedings{gorishniy2022embeddings,
    title={On Embeddings for Numerical Features in Tabular Deep Learning},
    author={Yury Gorishniy and Ivan Rubachev and Artem Babenko},
    booktitle={{NeurIPS}},
    year={2022},
}

يوسع

معلومات إضافية

الإصدار v0.0.11
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-01-28
الحجم 26.97MB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
node telegram bot api

كود الذكاء الاصطناعي

v0.50.0
typebot.io

كود الذكاء الاصطناعي

v3.1.2
python wechaty getting started

كود الذكاء الاصطناعي

1.0.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل