การทำนายรถแท็กซี่
โฟลเดอร์ GitHub ประกอบด้วย:
- รหัสโครงการใน 'รูปแบบ' r ': การทำนายค่าโดยสารโดยใช้ RR
- Python Code of Project ใน '.iPynb Format': การทำนายค่าโดยสารโดยใช้ Python.ipynb
- รายงานโครงการ: การทำนายค่าโดยสารรถแท็กซี่ pdf
- คำสั่งปัญหา pdf
- โมเดลที่บันทึกไว้ซึ่งได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลการฝึกอบรมทั้งหมดจาก Python: CAB_FARE_XGBOOST_MODEL.RAR.RAR
- โมเดลที่บันทึกไว้ซึ่งได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลการฝึกอบรมทั้งหมดจาก Python: final_xgboost_model_using_r.rar
- การคาดการณ์เกี่ยวกับชุดข้อมูลการทดสอบในรูปแบบ CSV: การคาดการณ์
คำสั่งปัญหา
วัตถุประสงค์ของโครงการนี้คือการทำนายจำนวนค่าโดยสาร CAB ตามคุณสมบัติข้อมูลต่อไปนี้ในชุดข้อมูลมีดังนี้:
pickup_datetime - timestamp value indicating when the cab ride started.
pickup_longitude - float for longitude coordinate of where the cab ride started.
pickup_latitude - float for latitude coordinate of where the cab ride started.
dropoff_longitude - float for longitude coordinate of where the cab ride ended.
dropoff_latitude - float for latitude coordinate of where the cab ride ended.
passenger_count - an integer indicating the number of passengers in the cab ride.
มันเป็นปัญหาการถดถอย
ขั้นตอนทั้งหมดที่ใช้ในโครงการนี้
- การประมวลผลข้อมูลล่วงหน้า
- การสร้างภาพข้อมูล
- การวิเคราะห์ค่าผิดปกติ
- การวิเคราะห์มูลค่าที่ขาดหายไป
- การเลือกคุณสมบัติ
- การวิเคราะห์สหสัมพันธ์
- การทดสอบไคสแควร์
- การวิเคราะห์การทดสอบความแปรปรวน (ANOVA)
- การทดสอบ Multicollinearity
- การปรับขนาดคุณลักษณะ
- แยกเป็นชุดข้อมูลรถไฟและการตรวจสอบความถูกต้อง
- การเพิ่มประสิทธิภาพแบบไฮเปอร์พารามิเตอร์
- การพัฒนาแบบจำลอง I. การถดถอยเชิงเส้น II การถดถอยริดจ์ III การถดถอย Lasso IV ต้นไม้ตัดสินใจ V. ป่าสุ่ม
- ปรับปรุงความแม่นยำ a) การปรับแต่งอัลกอริทึม b) วงดนตรี ------ XGBOOST สำหรับการถดถอยสรุปแบบจำลอง A) การคาดการณ์ในชุดข้อมูลการตรวจสอบความถูกต้อง b) สร้างแบบจำลองแบบสแตนด์อโลนในชุดข้อมูลการฝึกอบรมทั้งหมด c) บันทึกโมเดลสำหรับการใช้งานในภายหลัง
- รหัส Python