Ce référentiel est une collection de projets d'analyse de données que j'ai pratiqués. Chaque projet comprendra un document de description convivial pour expliquer et afficher l'ensemble du processus de développement. Il fournira également des ensembles de données pertinents à télécharger et à mettre en pratique.
En utilisant différentes piles technologiques et en analysant des ensembles de données provenant de différents secteurs, nous espérons atteindre les objectifs suivants :
Jupyter notebook est un éditeur Python interactif Web. Il est installé directement via pip et prend également en charge le markdown. Il est très approprié pour la visualisation d'analyse de données, la rédaction d'articles, l'écriture d'exemples de codes, etc.
thème | Méthode de traitement | pile technologique | Téléchargement de l'ensemble de données |
---|---|---|---|
Analyse de 100 millions de données sur le comportement des utilisateurs de Taobao | Traitement hors ligne | Nettoyer la ruche + analyser la ruche + visualiser les graphiques | Code d'extraction de disque réseau Alibaba Cloud ou Baidu : 5ipq |
Analyse en temps réel de 10 millions de données sur le comportement des utilisateurs de Taobao | traitement en temps réel | Source de données kafka + analyse en temps réel flink + visualisation (es + kibana) | Code d'extraction du disque réseau Baidu : m4mc |
Analyse de 3 millions de données de joueurs de "Barbarian Age" | Traitement hors ligne | Nettoyer les pandas + analyser MySQL + visualiser les pyecharts | Code d'extraction du disque réseau Baidu : paq4 |
Analyse de 1,3 million de données de balayage de cartes Shenzhen Pass | Traitement hors ligne | Nettoyer les pandas + analyser l'impala + visualiser le dbeaver | Code d'extraction du disque réseau Baidu : t561 |
Analyse de 100 000 données de recrutement à Xiamen | Traitement hors ligne | Nettoyer les pandas + analyser la ruche + visualisation (teinte + pyecharts) + prédire sklearn | Code d'extraction du disque réseau Baidu : 9wx0 |
Analyse de 7 000 données de location | Traitement hors ligne | Nettoyer les pandas + analyser SQLite + visualiser matplotlib | Code d'extraction du disque réseau Baidu : 9en3 |
Analyse de 6 000 données d'entreprises en faillite | Traitement hors ligne | Nettoyer les pandas + analyser les pandas + visualisation (carnet Jupyter + pyecharts) | Code d'extraction du disque réseau Baidu : xvgm |
Analyse des données sur l'épidémie de COVID-19 | Traitement hors ligne | Nettoyer les pandas + analyser les pandas + visualisation (carnet Jupyter + pyecharts) | Code d'extraction de disque réseau COVID-19 ou Baidu : wgmg |
Analyse de 70 000 données de commandes Tmall | Traitement hors ligne | Nettoyer les pandas + analyser les pandas + visualisation (carnet Jupyter + pyecharts) | Code d'extraction du disque réseau Baidu : 27nr |
- https://tianchi.aliyun.com/dataset/
- https://opendata.sz.gov.cn/data/api/toApiDetails/29200_00403601
- https://www.kesci.com/home/dataset
- https://github.com/CSSEGISandData/COVID-19