Une IA géniale centrée sur les données
L'IA centrée sur les données est l'approche du développement de l'IA qui considère l'ensemble de données de formation comme la pièce maîtresse de la solution plutôt que comme le modèle.
Ce référentiel contient une liste organisée de ressources impressionnantes telles que des bibliothèques open source, des didacticiels et des articles qui vous aideront à comprendre les concepts et à commencer votre voyage dans le développement de l'IA centrée sur les données.
Nous valorisons la collaboration ouverte et le partage des connaissances, nous vous recommandons donc de ne pas vous limiter à ce seul référentiel et de consulter d'autres projets étonnants tels que le Resources Hub d'Andrew Ng.
Profilage des données
- Profilage YData - YData Profiling prend en charge à la fois Pandas et Spark DataFrames, offrant une compréhension visuelle rapide et simple des données.
- SweetViz - SweetViz est une bibliothèque Python open source qui génère de superbes visualisations haute densité pour lancer l'EDA (Exploratory Data Analysis) avec seulement deux lignes de code.
- DataPrep.EDA - DataPrep.EDA est un outil EDA (Exploratory Data Analysis) en Python qui vous permet de comprendre un DataFrame Pandas/Dask avec quelques lignes de code en quelques secondes.
- AutoViz - Visualisez automatiquement n'importe quel ensemble de données, de n'importe quelle taille, avec une seule ligne de code.
- Lux - Lux est une bibliothèque Python qui facilite une exploration rapide et facile des données en automatisant le processus de visualisation et d'analyse des données.
- Great Expectations – Great Expectations aide les équipes chargées des données à éliminer la dette du pipeline, grâce aux tests, à la documentation et au profilage des données.
- D-Tale - Est une bibliothèque d'auto-visualisation Python open source qui vous offre un moyen simple de visualiser et d'analyser les structures de données Pandas. Il s'intègre parfaitement aux notebooks ipython et aux terminaux python/ipython.
- Data Profiler - Le DataProfiler est une bibliothèque Python conçue pour faciliter l'analyse, la surveillance et la détection des données sensibles.
- Whylogs - Whylogs est le standard open source pour l'enregistrement des données. Il utilise des techniques de profilage de données pour créer des profils Whylogs , qui peuvent être utilisés comme journaux pour permettre la surveillance et l'observabilité des pipelines de données et des modèles ML.
? Données synthétiques
- YData Synthetic - Générateurs de données synthétiques structurées utilisant des réseaux contradictoires génératifs spécifiquement pour les données tabulaires et chronologiques.
- Synthpop - Un outil permettant de produire des versions synthétiques de microdonnées contenant des informations confidentielles afin qu'elles puissent être diffusées en toute sécurité aux utilisateurs pour une analyse exploratoire.
- DataSynthesizer - DataSynthesizer génère des données synthétiques qui simulent un ensemble de données donné. Il applique des techniques de confidentialité différentielle pour obtenir une solide garantie de confidentialité.
- SDV - Le Synthetic Data Vault (SDV) est un écosystème de bibliothèques de génération de données synthétiques qui permet aux utilisateurs d'apprendre facilement des ensembles de données à table unique, multi-tables et de séries chronologiques pour, plus tard, générer de nouvelles données synthétiques ayant le même format. et propriétés statistiques comme ensemble de données d'origine.
- Pomegranate - Pomegranate est un package permettant de créer des modèles probabilistes en Python qui est implémenté dans Cython pour plus de rapidité. La plupart de ces modèles peuvent échantillonner des données.
- Gretel Synthetics - Le package Gretel Synthetics permet aux développeurs de s'immerger rapidement dans la génération de données synthétiques grâce à l'utilisation de réseaux de neurones.
- Time-Series-Generator - Time-Series-Generator permet aux développeurs de créer des ensembles de données de séries temporelles synthétiques d'une manière générique qui suit différentes tendances. L'objectif ici est de disposer de données non sensibles pour démontrer des solutions et tester l'efficacité de ces solutions et/ ou des algorithmes.
- Zpy - Zpy résout le problème du manque d'ensembles de données spécifiques à l'entreprise pour les applications basées sur la vision par ordinateur. Zpy utilise Python et Blender (un ensemble d'outils graphiques 3D open source) pour créer des ensembles de données synthétiques adaptés à des analyses de rentabilisation uniques.
? Étiquetage des données
- LabelImg - LabelImg est un outil d'annotation d'images graphiques. Il est écrit en Python et utilise Qt pour son interface graphique.
- LabelMe - LabelMe est un outil d'annotation polygonale d'images qui utilise Python et Qt.
- TagAnamoly - Outil d'étiquetage de détection d'anomalies, spécifiquement pour plusieurs séries chronologiques (une série chronologique par catégorie).
- EchoML - Jouez, visualisez et annotez vos fichiers audio
- LabelStudio - Label Studio est un outil d'étiquetage de données open source. Il vous permet d'étiqueter des types de données tels que l'audio, le texte, les images, les vidéos et les séries chronologiques avec une interface utilisateur simple et directe et de les exporter vers différents formats de modèle.
- Superbes outils d'annotation et d'étiquetage de données open source - Une liste des outils open source disponibles (triés par type de tâche) pour toute personne souhaitant étiqueter des données. Seuls les outils activement maintenus sont répertoriés.
Préparation des données
- DataFix - DataFix est un outil Python permettant de détecter et de corriger les changements de distribution entre une référence et un ensemble de données de requête. Il détecte les changements, localise les caractéristiques spécifiques responsables du changement et les corrige efficacement.
Tutoriels et ressources
Vous trouverez ici une liste de didacticiels pratiques et d'autres documents que nous utilisons sur notre site Web et nos blogs Medium ici : Tutoriels et ressources.
- Intelligence artificielle centrée sur les données : une enquête - Cette enquête vise à aider les lecteurs à appréhender efficacement une vue d'ensemble de l'IA centrée sur les données. Il couvre divers aspects tels que les besoins, les définitions et les défis de l'IA centrée sur les données, ainsi que les techniques de formation au développement de données, au développement de données d'inférence et à la maintenance des données. De plus, l'enquête organise la littérature existante du point de vue de l'automatisation et de la collaboration, en tablant et en analysant des références pour atteindre l'excellence des données. Il existe également une version courte.
? Cours
- MIT Introduction à l'IA centrée sur les données - Ce cours couvre les algorithmes permettant de rechercher et de résoudre les problèmes courants dans les données ML et de construire de meilleurs ensembles de données, en se concentrant sur les données utilisées dans les tâches d'apprentissage supervisé telles que la classification. Tout le matériel enseigné dans ce cours est hautement pratique, axé sur les aspects percutants des applications ML du monde réel, plutôt que sur les détails mathématiques du fonctionnement de modèles particuliers. Vous pouvez suivre ce cours pour apprendre des techniques pratiques non abordées dans la plupart des cours de ML, ce qui contribuera à atténuer le problème « déchets entrants, sortants » qui affecte de nombreuses applications ML du monde réel. Site Web | Vidéos de conférences | Travaux de laboratoire
? Une invitation ouverte
Nous sommes ouverts à la collaboration ! Si vous souhaitez commencer à contribuer, il vous suffit de créer une pull request avec les ressources pertinentes. Nous examinerions chaque demande de tirage.
Si vous avez trouvé ces ressources utiles, n'hésitez pas à consulter notre communauté d'IA centrée sur les données ou cliquez ici pour rejoindre notre serveur Discord. Nous espérons vous dire bonjour de l'autre côté !