pip install numpy
)pip install pandas
)pip install scikit-learn
)pip install scipy
)pip install statsmodels
)pip install matplotlib
)pip install seaborn
)pip install sympy
)pip install flask
)pip install wtforms
)pip install tensorflow>=1.15
)pip install keras
)pip install pdpipe
)Vous pouvez commencer par cet article que j'ai écrit dans le magazine Heartbeat (sur la plateforme Medium) :
Carnets Jupyter couvrant un large éventail de fonctions et d'opérations sur les thèmes de NumPy, Pandans, Seaborn, Matplotlib etc.
Plusieurs façons d'effectuer une régression linéaire en Python et leur comparaison de vitesse (consultez l'article que j'ai écrit sur freeCodeCamp)
Régression multivariée avec régularisation
Régression polynomiale utilisant la fonctionnalité de pipeline scikit-learn (consultez l'article que j'ai écrit sur Towards Data Science )
Arbres de décision et régression Random Forest (montrant comment Random Forest fonctionne comme un méta-estimateur robuste/régularisé rejetant le surajustement)
Analyses visuelles détaillées et tests de diagnostic d'adéquation pour un problème de régression linéaire
Régression linéaire robuste utilisant HuberRegressor
de Scikit-learn
k -classification du voisin le plus proche (Voici le cahier)
Arbres de décision et classification aléatoire des forêts (voici le cahier)
Prise en charge de la classification des machines vectorielles (voici le cahier) ( consultez l'article que j'ai écrit dans Towards Data Science sur SVM et l'algorithme de tri)
K -signifie clustering (Voici le cahier)
Propagation d'affinité (montrant sa complexité temporelle et l'effet du facteur d'amortissement) (Voici le cahier)
Technique de décalage moyen (montrant sa complexité temporelle et l'effet du bruit sur la découverte de clusters) (Voici le carnet)
DBSCAN (montrant comment il peut détecter de manière générique des zones de haute densité indépendamment de la forme des clusters, ce que les k-means ne parviennent pas à faire) (Voici le cahier)
Clustering hiérarchique avec des dendogrammes montrant comment choisir le nombre optimal de clusters (Voici le cahier)
Comment utiliser le package Sympy pour générer des ensembles de données aléatoires à l'aide d'expressions mathématiques symboliques.
Voici mon article sur Medium sur ce sujet : Génération de problèmes de régression aléatoire et de classification avec expression symbolique
Servir un modèle de régression linéaire via une simple interface de serveur HTTP. L'utilisateur doit demander des prédictions en exécutant un script Python. Utilise Flask
et Gunicorn
.
Servir un réseau neuronal récurrent (RNN) via une page Web HTTP, complétée par un formulaire Web, où les utilisateurs peuvent saisir des paramètres et cliquer sur un bouton pour générer du texte basé sur le modèle RNN pré-entraîné. Utilise Flask
, Jinja
, Keras
/ TensorFlow
, WTForms
.
Mettre en œuvre certains des principes fondamentaux de la POO dans un contexte d'apprentissage automatique en créant votre propre estimateur de type Scikit-learn et en l'améliorant.
Voir mes articles sur Medium sur ce sujet.
Consultez les fichiers et les instructions détaillées dans le répertoire Pytest pour comprendre comment écrire le code/module de test unitaire pour les modèles d'apprentissage automatique.
Le profilage du code de science des données et des modèles ML pour l'empreinte mémoire et le temps de calcul est un domaine critique mais souvent négligé. Voici quelques cahiers montrant les idées,