bigdata_analyse
1.0.0
Repo ini adalah kumpulan proyek analisis data yang telah saya praktikkan. Setiap proyek akan menyertakan dokumen deskripsi yang ramah untuk menjelaskan dan menampilkan keseluruhan proses pengembangan.
Dengan menggunakan tumpukan teknologi yang berbeda dan menganalisis kumpulan data dari berbagai industri, kami berharap dapat mencapai tujuan berikut:
Notebook Jupyter adalah editor python interaktif web. Ini diinstal langsung melalui pip dan juga mendukung penurunan harga. Sangat cocok untuk visualisasi analisis data, menulis artikel, menulis kode sampel, dll.
tema | Metode pengolahan | tumpukan teknologi | Pengunduhan kumpulan data |
---|---|---|---|
Analisis 100 juta data perilaku pengguna Taobao | Pemrosesan offline | Bersihkan sarang + analisis sarang + visualisasikan grafik | Kode ekstraksi disk jaringan Alibaba Cloud atau Baidu: 5ipq |
Analisis real-time terhadap 10 juta data perilaku pengguna Taobao | pemrosesan waktu nyata | Sumber data kafka + analisis real-time flink + visualisasi (es + kibana) | Kode ekstraksi disk jaringan Baidu: m4mc |
Analisis 3 juta data pemain "Barbarian Age" | Pemrosesan offline | Bersihkan panda + analisis mysql + visualisasikan diagram pie | Kode ekstraksi disk jaringan Baidu: paq4 |
Analisis 1,3 juta data penggesekan kartu Shenzhen Pass | Pemrosesan offline | Bersihkan panda + analisis impala + visualisasikan dbeaver | Kode ekstraksi disk jaringan Baidu: t561 |
Analisis 100.000 data rekrutmen Xiamen | Pemrosesan offline | Bersihkan panda + analisis sarang + visualisasi (rona + diagram lingkaran) + prediksi sklearn | Kode ekstraksi disk jaringan Baidu: 9wx0 |
Analisis 7.000 data sewa | Pemrosesan offline | Bersihkan panda + analisis sqlite + visualisasikan matplotlib | Kode ekstraksi disk jaringan Baidu: 9en3 |
Analisis 6.000 data perusahaan bangkrut | Pemrosesan offline | Bersihkan panda + analisis panda + visualisasi (jupyter notebook + piecharts) | Kode ekstraksi disk jaringan Baidu: xvgm |
Analisis data epidemi COVID-19 | Pemrosesan offline | Bersihkan panda + analisis panda + visualisasi (jupyter notebook + piecharts) | Kode ekstraksi disk jaringan COVID-19 atau Baidu: wgmg |
Analisis 70.000 data pesanan kecil | Pemrosesan offline | Bersihkan panda + analisis panda + visualisasi (jupyter notebook + piecharts) | Kode ekstraksi disk jaringan Baidu: 27nr |
- https://tianchi.aliyun.com/dataset/
- https://opendata.sz.gov.cn/data/api/toApiDetails/29200_00403601
- https://www.kesci.com/home/dataset
- https://github.com/CSSEGISandData/COVID-19