bigdata_analyse
1.0.0
Repo นี้เป็นชุดของโครงการวิเคราะห์ข้อมูลที่ฉันได้ฝึกฝน แต่ละโครงการจะมีเอกสารคำอธิบายที่เป็นมิตรเพื่ออธิบายและแสดงกระบวนการพัฒนาทั้งหมด นอกจากนี้ ยังมีชุดข้อมูลที่เกี่ยวข้องสำหรับการดาวน์โหลดและการปฏิบัติ
ด้วยการใช้สแต็กเทคโนโลยีที่แตกต่างกันและการวิเคราะห์ชุดข้อมูลจากอุตสาหกรรมที่แตกต่างกัน เราหวังว่าจะบรรลุเป้าหมายต่อไปนี้:
Jupyter Notebook เป็นตัวแก้ไข Python แบบโต้ตอบบนเว็บ มันถูกติดตั้งโดยตรงผ่าน pip และยังรองรับ markdown อีกด้วย เหมาะอย่างยิ่งสำหรับการแสดงภาพการวิเคราะห์ข้อมูล การเขียนบทความ การเขียนโค้ดตัวอย่าง ฯลฯ
ธีม | วิธีการประมวลผล | กองเทคโนโลยี | ดาวน์โหลดชุดข้อมูล |
---|---|---|---|
การวิเคราะห์ข้อมูลพฤติกรรมผู้ใช้ Taobao 100 ล้านราย | การประมวลผลแบบออฟไลน์ | ทำความสะอาดรัง + วิเคราะห์รัง + แสดงภาพ echarts | รหัสการแยกดิสก์เครือข่าย Alibaba Cloud หรือ Baidu: 5ipq |
การวิเคราะห์ข้อมูลพฤติกรรมผู้ใช้ Taobao 10 ล้านรายแบบเรียลไทม์ | การประมวลผลแบบเรียลไทม์ | แหล่งข้อมูล kafka + การวิเคราะห์แบบเรียลไทม์ + การแสดงภาพ (es + kibana) | รหัสการแยกดิสก์เครือข่าย Baidu: m4mc |
การวิเคราะห์ข้อมูลผู้เล่น 3 ล้านคนของ "Barbarian Age" | การประมวลผลแบบออฟไลน์ | ทำความสะอาดแพนด้า + วิเคราะห์ mysql + แสดงภาพแผนภูมิ | รหัสการแยกดิสก์เครือข่าย Baidu: paq4 |
วิเคราะห์ข้อมูลการรูดบัตร Shenzhen Pass 1.3 ล้านรายการ | การประมวลผลแบบออฟไลน์ | ทำความสะอาดแพนด้า + วิเคราะห์อิมพาลา + เห็นภาพบีเวอร์ | รหัสการแยกดิสก์เครือข่าย Baidu: t561 |
วิเคราะห์ข้อมูลการสรรหาบุคลากรเซียะเหมิน 100,000 ชิ้น | การประมวลผลแบบออฟไลน์ | ทำความสะอาดแพนด้า + วิเคราะห์รัง + การสร้างภาพ (เฉดสี + pyecharts) + ทำนาย Sklearn | รหัสการแยกดิสก์เครือข่าย Baidu: 9wx0 |
วิเคราะห์ข้อมูลการเช่า 7,000 รายการ | การประมวลผลแบบออฟไลน์ | ทำความสะอาดแพนด้า + วิเคราะห์ sqlite + แสดงภาพ matplotlib | รหัสการแยกดิสก์เครือข่าย Baidu: 9en3 |
การวิเคราะห์ข้อมูลองค์กรที่ล้มละลาย 6,000 รายการ | การประมวลผลแบบออฟไลน์ | ทำความสะอาดแพนด้า + วิเคราะห์แพนด้า + การสร้างภาพข้อมูล (สมุดบันทึก jupyter + pyecharts) | รหัสการแยกดิสก์เครือข่าย Baidu: xvgm |
การวิเคราะห์ข้อมูลการแพร่ระบาดของไวรัสโควิด-19 | การประมวลผลแบบออฟไลน์ | ทำความสะอาดแพนด้า + วิเคราะห์แพนด้า + การสร้างภาพข้อมูล (สมุดบันทึก jupyter + pyecharts) | รหัสการแยกดิสก์เครือข่าย COVID-19 หรือ Baidu: wgmg |
การวิเคราะห์ข้อมูลการสั่งซื้อ Tmall 70,000 รายการ | การประมวลผลแบบออฟไลน์ | ทำความสะอาดแพนด้า + วิเคราะห์แพนด้า + การสร้างภาพข้อมูล (สมุดบันทึก jupyter + pyecharts) | รหัสการแยกดิสก์เครือข่าย Baidu: 27nr |
- https://tianchi.aliyun.com/dataset/
- https://opendata.sz.gov.cn/data/api/toApiDetails/29200_00403601
- https://www.kesci.com/home/dataset
- https://github.com/CSSEGISandData/COVID-19