bigdata_analyse
1.0.0
Este repositório é uma coleção de projetos de análise de dados que pratiquei. Cada projeto incluirá um documento de descrição amigável para explicar e exibir todo o processo de desenvolvimento. Ele também fornecerá conjuntos de dados relevantes para download e prática.
Ao utilizar diferentes pilhas de tecnologia e analisar conjuntos de dados de diferentes setores, esperamos atingir os seguintes objetivos:
O notebook Jupyter é um editor python interativo da web. Ele é instalado diretamente por meio do pip e também suporta markdown. É muito adequado para visualização de análise de dados, escrita de artigos, escrita de códigos de amostra, etc.
tema | Método de processamento | pilha de tecnologia | Download do conjunto de dados |
---|---|---|---|
Análise de 100 milhões de dados de comportamento do usuário Taobao | Processamento off-line | Limpar colmeia + analisar colmeia + visualizar echarts | Código de extração de disco de rede Alibaba Cloud ou Baidu: 5ipq |
Análise em tempo real de 10 milhões de dados de comportamento do usuário Taobao | processamento em tempo real | Fonte de dados kafka + análise em tempo real flink + visualização (es + kibana) | Código de extração de disco de rede Baidu: m4mc |
Análise de dados de 3 milhões de jogadores da "Era Bárbara" | Processamento off-line | Limpe pandas + analise mysql + visualize pyecharts | Código de extração de disco de rede Baidu: paq4 |
Análise de 1,3 milhão de dados de passagem do cartão Shenzhen Pass | Processamento off-line | Limpe pandas + analise impala + visualize dbeaver | Código de extração de disco de rede Baidu: t561 |
Análise de 100.000 dados de recrutamento de Xiamen | Processamento off-line | Limpar pandas + analisar colmeia + visualização (matiz + pyecharts) + prever sklearn | Código de extração de disco de rede Baidu: 9wx0 |
Análise de 7.000 dados de aluguel | Processamento off-line | Limpe pandas + analise sqlite + visualize matplotlib | Código de extração de disco de rede Baidu: 9en3 |
Análise de dados de 6.000 empresas falidas | Processamento off-line | Limpar pandas + analisar pandas + visualização (caderno jupyter + pyecharts) | Código de extração de disco de rede Baidu: xvgm |
Análise de dados epidêmicos de COVID-19 | Processamento off-line | Limpar pandas + analisar pandas + visualização (caderno jupyter + pyecharts) | Código de extração de disco de rede COVID-19 ou Baidu: wgmg |
Análise de 70.000 dados de pedidos Tmall | Processamento off-line | Limpar pandas + analisar pandas + visualização (caderno jupyter + pyecharts) | Código de extração de disco de rede Baidu: 27nr |
- https://tianchi.aliyun.com/dataset/
- https://opendata.sz.gov.cn/data/api/toApiDetails/29200_00403601
- https://www.kesci.com/home/dataset
- https://github.com/CSSEGISandData/COVID-19