? Ranked as one of the top data science repositories on GitHub!
Techniques, outils, bonnes pratiques et tout ce dont vous avez besoin pour apprendre le machine learning !
Complete Machine Learning Package est un référentiel complet contenant 35 cahiers sur la programmation Python, la manipulation des données, l'analyse des données, la visualisation des données, le nettoyage des données, l'apprentissage automatique classique, la vision par ordinateur et le traitement du langage naturel (NLP).
Tous les cahiers ont été créés en pensant aux lecteurs. Chaque cahier commence par un aperçu de haut niveau de tout algorithme/concept spécifique couvert. Dans la mesure du possible, des visuels sont utilisés pour clarifier les choses.
10 mai 2023 : ajout d'un guide complet sur MLOps. Profitez du guide !!
23 juin 2022 : De nombreuses personnes ont demandé comment elles pouvaient soutenir le paquet. Vous pouvez nous acheter un café ☕️
18 mai 2022 : le package complet d'apprentissage automatique est désormais disponible sur le Web. Il est désormais facile de visualiser tous les carnets !
9 avril 2022 : mise à jour de l'apprentissage par transfert avec des réseaux de neurones convolutifs pré-entraînés avec des éléments supplémentaires et des ressources supplémentaires ajoutées.
25 novembre 2021 : mise à jour des principes fondamentaux de l'apprentissage automatique : ajout de notes d'introduction, du flux de travail de conception de systèmes ML et des défis des systèmes d'apprentissage.
Voici les outils couverts dans le package complet d’apprentissage automatique. Ce sont des outils populaires dont la plupart des ingénieurs en apprentissage automatique et des data scientists ont besoin d’une manière ou d’une autre et au quotidien.
Python est un langage de programmation de haut niveau qui jouit d'une grande popularité dans la communauté des données et, avec la croissance rapide des bibliothèques et des frameworks, c'est un langage de programmation idéal pour faire du ML.
NumPy est un outil de calcul scientifique utilisé pour les opérations sur les tableaux ou les matrices.
Pandas est un outil simple et formidable pour analyser et manipuler des données provenant de diverses sources différentes.
Matplotlib est un outil complet de visualisation de données utilisé pour créer des visualisations statiques, animées et interactives en Python.
Seaborn est un autre outil de visualisation de données construit sur Matplotlib et qui est assez simple à utiliser.
Scikit-Learn : au lieu de créer des modèles d'apprentissage automatique à partir de zéro, Scikit-Learn facilite l'utilisation de modèles classiques en quelques lignes de code. Cet outil est adapté par la quasi-totalité de la communauté et des industries du ML, des startups aux grandes techs.
TensorFlow et Keras pour l'apprentissage en profondeur : TensorFlow est un framework d'apprentissage en profondeur populaire utilisé pour créer des modèles adaptés à différents domaines tels que la vision par ordinateur et le traitement du langage naturel. Keras est une API de réseau neuronal de haut niveau qui facilite la conception de modèles d'apprentissage en profondeur. TensorFlow et Keras disposent d'une communauté et d'un écosystème formidables qui incluent des outils tels que TensorBoard, TF Datasets, TensorFlow Lite, TensorFlow Extended, TensorFlow Hub, TensorFlow.js, TensorFlow GNN et bien plus encore.
[ Vous pouvez trouver des notes détaillées sur NumPy ici ]
Analyse exploratoire des données
Introduction à la préparation des données
Gestion des fonctionnalités catégorielles
Mise à l'échelle des fonctionnalités
Gestion des valeurs manquantes
Introduction à Scikit-Learn pour l'apprentissage automatique
Modèles linéaires pour la régression
Modèles linéaires pour la classification
Machines à vecteurs de support : introduction et régression
Machines à vecteurs de support pour la classification
Arbres de décision : introduction et régression
Arbres de décision pour la classification
Forêts aléatoires : introduction et régression
Forêts aléatoires pour la classification
Au-delà des forêts aléatoires : plus de modèles d'ensemble
Introduction à l'apprentissage non supervisé avec le clustering KMeans
Une introduction pratique à l'analyse en composantes principales
Introduction aux réseaux de neurones artificiels
Pourquoi l'apprentissage profond
Un réseau neuronal monocouche
Fonctions d'activation
Types d'architectures d'apprentissage profond
Défis liés à la formation de réseaux de neurones profonds
Introduction à TensorFlow pour le Deep Learning
Réseaux de neurones pour la régression avec TensorFlow
Réseaux de neurones pour la classification avec TensorFlow
Introduction à la vision par ordinateur avec les réseaux de neurones convolutifs (CNN)
ConvNets pour l'augmentation des données et des images du monde réel
Transférer l'apprentissage avec des réseaux de neurones convolutifs pré-entraînés
[Le cahier mis à jour de Transfer Learning se trouve ici]
Introduction à la PNL et au traitement de texte avec TensorFlow
Utiliser des intégrations de mots pour représenter des textes
Réseaux de neurones récurrents (RNN)
Utilisation de réseaux de neurones convolutifs pour la classification de textes
Utilisation de BERT pré-entraîné pour la classification de texte
La plupart des ensembles de données utilisés pour ce référentiel proviennent des sources suivantes :
La communauté Machine Learning est très dynamique. Un package complet d’apprentissage automatique peut vous aider à démarrer, mais ce n’est pas suffisant. Heureusement, il existe de nombreuses ressources d’apprentissage fabuleuses, dont certaines sont payantes ou disponibles gratuitement. Voici une liste de cours souvent recommandés par de nombreuses personnes. Notez qu’ils ne sont pas répertoriés dans l’ordre dans lequel ils doivent être pris.
Machine Learning par Coursera : Ce cours a été dispensé par Andrew Ng. C'est l'un des cours d'apprentissage automatique les plus populaires, il a été suivi par plus de 4 millions de personnes. Le cours se concentre davantage sur les principes fondamentaux des techniques et des algorithmes d'apprentissage automatique. C'est gratuit sur Coursera.
Spécialisation Deep Learning : Également enseignée par Andrew Ng., la spécialisation Deep Learning est également un cours basé sur les bases. Il enseigne les bases décentes des principales architectures d'apprentissage profond telles que les réseaux de neurones convolutifs et les réseaux de neurones récurrents. Le cours complet peut être audité sur Coursera ou regardé gratuitement sur Youtube.
MIT Intro to Deep Learning : ce cours fournit les bases de l'apprentissage profond dans un laps de temps raisonnablement court. Chaque cours dure une heure ou moins, mais le matériel est toujours le meilleur des cours. Consultez la page du cours ici et les vidéos des conférences ici.
MIT Introduction à l'IA centrée sur les données : il s'agit du tout premier cours sur DCAI. Ce cours couvre les algorithmes permettant de rechercher et de résoudre les problèmes courants dans les données ML et de construire de meilleurs ensembles de données, en se concentrant sur les données utilisées dans les tâches d'apprentissage supervisé telles que la classification. Tout le matériel enseigné dans ce cours est hautement pratique, axé sur les aspects percutants des applications ML du monde réel, plutôt que sur les détails mathématiques du fonctionnement de modèles particuliers. Vous pouvez suivre ce cours pour apprendre des techniques pratiques non abordées dans la plupart des cours de ML, ce qui contribuera à atténuer le problème « déchets entrants, sortants » qui affecte de nombreuses applications ML du monde réel. Consultez la page du cours ici, les vidéos de cours ici et les devoirs de laboratoire ici.
NYU Deep Learning Spring 2021 : Enseigné à NYU par Yann LeCun, Alfredo Canziani, ce cours est l'un des cours les plus créatifs du marché. Les matériaux sont présentés de manière étonnante. Consultez les vidéos de conférence ici et le référentiel du cours ici.
CS231N : Réseaux de neurones convolutifs pour la reconnaissance visuelle par Stanford : CS231N est l'un des meilleurs cours d'apprentissage en profondeur et de vision par ordinateur. La version 2017 a été enseignée par Fei-Fei Li, Justin Johnson et Serena Yeung. La version 2016 a été enseignée par Fei-Fei, Johnson et Andrej Karpathy. Voir les vidéos des conférences 2017 ici et d'autres documents ici.
CS224N : Traitement du langage naturel avec apprentissage profond par Stanford : Si vous êtes intéressé par le traitement du langage naturel, c'est un excellent cours à suivre. Il est enseigné par Christopher Manning, l'une des stars de la PNL de classe mondiale. Voir les vidéos de la conférence ici.
Apprentissage profond pratique pour les codeurs par fast.ai : Il s'agit également d'un cours intensif d'apprentissage profond qui couvre tout le spectre des architectures et des techniques d'apprentissage profond. Les vidéos de cours et autres ressources telles que les cahiers constituent la page du cours.
Spécialisation Machine Learning Engineering for Production (MLOps) : Enseigné par Andrew Ng., Laurence Moroney et Robert Crowe, c'est l'un des meilleurs cours d'ingénierie ML. Il enseigne comment concevoir des systèmes de production d'apprentissage automatique de bout en bout, créer des pipelines de données et de modélisation efficaces et déployer des modèles en production. Vous pouvez trouver le cours sur Coursera et d'autres supports de cours sur Github.
Full Stack Deep Learning : Alors que la majorité des cours d'apprentissage automatique se concentrent sur la modélisation, ce cours se concentre sur l'expédition de systèmes d'apprentissage automatique. Il enseigne comment concevoir des projets d'apprentissage automatique, la gestion des données (stockage, accès, traitement, versionnage et étiquetage), la formation, le débogage et le déploiement de modèles d'apprentissage automatique. Voir la version 2021 ici et la version 2019 ici. Vous pouvez également parcourir les présentations de projets pour voir le type de résultats des cours grâce aux projets des apprenants.
Vous trouverez ci-dessous quelques livres impressionnants sur l’apprentissage automatique.
Le livre d'apprentissage automatique de cent pages : rédigé par Andriy Burkov, c'est l'un des livres les plus courts mais concis et bien écrit que vous puissiez trouver sur Internet. Vous pouvez lire le livre gratuitement ici.
Ingénierie de l'apprentissage automatique : également rédigé par Andriy Burkov, il s'agit d'un autre excellent livre d'apprentissage automatique qui dévoile chaque étape du flux de travail d'apprentissage automatique, de la collecte de données, de la préparation... à la diffusion et à la maintenance du modèle. Le livre est également gratuit ici.
Machine Learning Yearning : Rédigé par Andrew Ng., le livre contient diverses stratégies pour créer des systèmes d'apprentissage efficaces. Il est divisé en petites parties, ce qui le rend facile à lire et ne pose pas de problème aux ingénieurs en apprentissage automatique. Toute personne travaillant avec des équipes de science des données et d’apprentissage automatique peut trouver ce livre utile. Le livre officiel est disponible ici gratuitement, mais vous pouvez le lire ou le télécharger ici sans avoir besoin de vous inscrire.
Apprentissage automatique pratique avec Scikit-Learn, Keras et TensorFlow : rédigé par Aurelion Geron, c'est l'un des meilleurs livres d'apprentissage automatique. Il est clairement rédigé et regorge d’idées et de bonnes pratiques. Vous pouvez obtenir le livre ici ou consulter son référentiel ici.
Deep Learning : Écrit par 3 légendes du deep learning, Ian Goodfellow et Yoshua Bengio et Aaron Courville, c'est l'un des grands livres d'apprentissage profond disponibles gratuitement. Vous pouvez l'obtenir ici.
Deep Learning avec Python : Rédigé par François Chollet, designer The Keras, il s'agit d'un livre de deep learning très complet. Vous pouvez obtenir le livre ici et le dépôt du livre ici.
Plongez dans le Deep Learning : C'est également un excellent livre d'apprentissage en profondeur disponible gratuitement. Le livre utilise à la fois PyTorch et TensorFlow. Vous pouvez lire l’intégralité du livre ici.
Réseaux de neurones et apprentissage profond : Ceci est également un autre excellent livre en ligne sur l'apprentissage profond de Michael Nielsen. Vous pouvez lire l’intégralité du livre ici.
Si vous êtes intéressé par davantage de ressources d'apprentissage automatique et d'apprentissage profond, vous pouvez les trouver ici, ici et ici
@article{Nyandwi2021MLPackage,
title = "Complete Machine Learning Package",
author = "Nyandwi, Jean de Dieu",
journal = "GitHub",
year = "2021",
url = "https://nyandwi.com/machine_learning_complete",
}
Ce référentiel a été créé par Jean de Dieu Nyandwi. Vous pouvez le trouver sur Twitter, LinkedIn, Medium et Instagram.