bigdata_analyse
1.0.0
Este repositorio es una colección de proyectos de análisis de datos que he practicado. Cada proyecto incluirá un documento de descripción amigable para explicar y mostrar todo el proceso de desarrollo. También proporcionará conjuntos de datos relevantes para descargar y practicar.
Al utilizar diferentes pilas de tecnología y analizar conjuntos de datos de diferentes industrias, esperamos lograr los siguientes objetivos:
Jupyter notebook es un editor de Python interactivo web. Se instala directamente a través de pip y también admite rebajas. Es muy adecuado para visualización de análisis de datos, redacción de artículos, redacción de códigos de muestra, etc.
tema | Método de procesamiento | pila de tecnología | Descarga del conjunto de datos |
---|---|---|---|
Análisis de 100 millones de datos de comportamiento de usuarios de Taobao | Procesamiento fuera de línea | Limpiar colmena + analizar colmena + visualizar echarts | Código de extracción del disco de red de Alibaba Cloud o Baidu: 5ipq |
Análisis en tiempo real de 10 millones de datos de comportamiento de usuarios de Taobao | procesamiento en tiempo real | Fuente de datos kafka + análisis en tiempo real flink + visualización (es + kibana) | Código de extracción del disco de red de Baidu: m4mc |
Análisis de los datos de 3 millones de jugadores de "Barbarian Age" | Procesamiento fuera de línea | Limpiar pandas + analizar mysql + visualizar pyecharts | Código de extracción del disco de red de Baidu: paq4 |
Análisis de 1,3 millones de datos de deslizamiento de tarjetas Shenzhen Pass | Procesamiento fuera de línea | Limpiar pandas + analizar impala + visualizar dbeaver | Código de extracción del disco de red de Baidu: t561 |
Análisis de 100.000 datos de reclutamiento de Xiamen | Procesamiento fuera de línea | Limpiar pandas + analizar colmena + visualización (hue + pyecharts) + predecir sklearn | Código de extracción del disco de red de Baidu: 9wx0 |
Análisis de 7.000 datos de alquiler | Procesamiento fuera de línea | Limpiar pandas + analizar sqlite + visualizar matplotlib | Código de extracción del disco de red de Baidu: 9en3 |
Análisis de datos de 6.000 empresas en quiebra | Procesamiento fuera de línea | Limpiar pandas + analizar pandas + visualización (jupyter notebook + pyecharts) | Código de extracción del disco de red de Baidu: xvgm |
Análisis de datos epidémicos de COVID-19 | Procesamiento fuera de línea | Limpiar pandas + analizar pandas + visualización (jupyter notebook + pyecharts) | Código de extracción de disco de red COVID-19 o Baidu: wgmg |
Análisis de datos de 70.000 pedidos pequeños | Procesamiento fuera de línea | Limpiar pandas + analizar pandas + visualización (jupyter notebook + pyecharts) | Código de extracción del disco de red de Baidu: 27nr |
- https://tianchi.aliyun.com/dataset/
- https://opendata.sz.gov.cn/data/api/toApiDetails/29200_00403601
- https://www.kesci.com/home/dataset
- https://github.com/CSSEGISandData/COVID-19