bigdata_analyse
1.0.0
該repo 是本人實踐的資料分析專案集合,每個專案都會包含一個友善的說明文檔,用來闡述和展示整個開發流程,同時也會提供相關的資料集,以供下載練習。
採用不同的技術棧,透過對不同產業的資料集進行分析,期望達到以下目的:
jupyter notebook 是一種網頁互動形式的python 編輯器,直接透過pip 安裝,也支援markdown,很適合用來做資料分析視覺化以及寫文章、寫範例程式碼等。
主題 | 處理方式 | 技術堆疊 | 資料集下載 |
---|---|---|---|
1 億條淘寶用戶行為數據分析 | 離線處理 | 清洗hive + 分析hive + 視覺化echarts | 阿里雲或百度網盤提取碼:5ipq |
1000 萬條淘寶用戶行為數據即時分析 | 即時處理 | 資料來源kafka + 即時分析flink + 視覺化(es + kibana) | 百度網盤擷取碼:m4mc |
300 萬條《野蠻時代》的玩家數據分析 | 離線處理 | 清洗pandas + 分析mysql + 視覺化pyecharts | 百度網盤擷取碼:paq4 |
130 萬條深圳通刷卡資料分析 | 離線處理 | 清洗pandas + 分析impala + 可視化dbeaver | 百度網盤擷取碼:t561 |
10 萬條廈門招聘數據分析 | 離線處理 | 清洗pandas + 分析hive + 視覺化( hue + pyecharts ) + 預測sklearn | 百度網盤擷取碼:9wx0 |
7000 條租屋數據分析 | 離線處理 | 清洗pandas + 分析sqlite + 視覺化matplotlib | 百度網盤擷取碼:9en3 |
6000 則倒閉企業資料分析 | 離線處理 | 清洗pandas + 分析pandas + 視覺化(jupyter notebook + pyecharts) | 百度網盤擷取碼:xvgm |
COVID-19 疫情數據分析 | 離線處理 | 清洗pandas + 分析pandas + 視覺化(jupyter notebook + pyecharts) | COVID-19 或百度網盤提取碼:wgmg |
7 萬條天貓訂單資料分析 | 離線處理 | 清洗pandas + 分析pandas + 視覺化(jupyter notebook + pyecharts) | 百度網盤擷取碼:27nr |
- https://tianchi.aliyun.com/dataset/
- https://opendata.sz.gov.cn/data/api/toApiDetails/29200_00403601
- https://www.kesci.com/home/dataset
- https://github.com/CSSEGISandData/COVID-19