bigdata_analyse
1.0.0
Dieses Repo ist eine Sammlung von Datenanalyseprojekten, die ich geübt habe. Jedes Projekt enthält ein benutzerfreundliches Beschreibungsdokument, um den gesamten Entwicklungsprozess zu erklären und anzuzeigen. Außerdem werden relevante Datensätze zum Herunterladen und Üben bereitgestellt.
Durch den Einsatz unterschiedlicher Technologie-Stacks und die Analyse von Datensätzen aus unterschiedlichen Branchen hoffen wir, folgende Ziele zu erreichen:
Jupyter Notebook ist ein webinteraktiver Python-Editor, der direkt über pip installiert wird und auch Markdown unterstützt. Er eignet sich sehr gut für die Visualisierung von Datenanalysen, das Schreiben von Beispielcodes usw.
Thema | Verarbeitungsmethode | Technologie-Stack | Datensatz-Download |
---|---|---|---|
Analyse von 100 Millionen Taobao-Benutzerverhaltensdaten | Offline-Verarbeitung | Bienenstock reinigen + Bienenstock analysieren + Echarts visualisieren | Alibaba Cloud- oder Baidu-Netzwerkdatenträger-Extraktionscode: 5ipq |
Echtzeitanalyse von 10 Millionen Taobao-Benutzerverhaltensdaten | Echtzeitverarbeitung | Datenquelle Kafka + Echtzeitanalyse Flink + Visualisierung (ES + Kibana) | Extraktionscode für Baidu-Netzwerkfestplatten: m4mc |
Analyse von 3 Millionen Spielerdaten von „Barbarian Age“ | Offline-Verarbeitung | Bereinigen Sie Pandas, analysieren Sie MySQL und visualisieren Sie Pyecharts | Extraktionscode für Baidu-Netzwerkfestplatten: paq4 |
Analyse von 1,3 Millionen Daten zum Durchziehen von Shenzhen-Pass-Karten | Offline-Verarbeitung | Pandas reinigen + Impalas analysieren + Dbeaver visualisieren | Extraktionscode für Baidu-Netzwerkfestplatten: t561 |
Analyse von 100.000 Rekrutierungsdaten aus Xiamen | Offline-Verarbeitung | Pandas reinigen + Bienenstock analysieren + Visualisierung (Farbton + Pyecharts) + Sklearn vorhersagen | Extraktionscode für Baidu-Netzwerkfestplatten: 9wx0 |
Analyse von 7.000 Mietdaten | Offline-Verarbeitung | Bereinigen Sie Pandas + analysieren Sie SQLite + visualisieren Sie Matplotlib | Extraktionscode für Baidu-Netzwerkfestplatten: 9en3 |
Analyse von 6.000 Insolvenz-Unternehmensdaten | Offline-Verarbeitung | Pandas reinigen + Pandas analysieren + Visualisierung (Jupyter Notebook + Pyecharts) | Extraktionscode für Baidu-Netzwerkdatenträger: xvgm |
Datenanalyse zur COVID-19-Epidemie | Offline-Verarbeitung | Pandas reinigen + Pandas analysieren + Visualisierung (Jupyter Notebook + Pyecharts) | COVID-19- oder Baidu-Netzwerkdatenträger-Extraktionscode: wgmg |
Analyse von 70.000 Tmall-Auftragsdaten | Offline-Verarbeitung | Pandas reinigen + Pandas analysieren + Visualisierung (Jupyter Notebook + Pyecharts) | Extraktionscode für Baidu-Netzwerkfestplatten: 27nr |
- https://tianchi.aliyun.com/dataset/
- https://opendata.sz.gov.cn/data/api/toApiDetails/29200_00403601
- https://www.kesci.com/home/dataset
- https://github.com/CSSEGISandData/COVID-19