Taxi-Free-Prediction
Der GitHub -Ordner enthält:
- R -Projektcode in '.R -Format': CAB -Tarifvorhersage mit RR
- Python -Projektcode in '.IPynb Format': Cab Tarif Prediction mit Python.ipynb
- Projektbericht: Cab Tarif Prediction.pdf
- Problemanweisung.pdf
- Gespeichertes Modell, das auf dem gesamten Trainingsdatensatz von Python trainiert wurde: CAB_FARE_XGBOOST_MODEL.RAR
- Speichertes Modell, das auf dem gesamten Trainingsdatensatz von Python trainiert wurde: Final_xgboost_model_using_r.rar
- Vorhersagen im Testdatensatz im CSV -Format: Vorhersagen_xgboost.csv
Problemanweisung
Das Ziel dieses Projekts ist es, die Tar -Tarifmenge auf der Grundlage der folgenden Datenattribute im Datensatz vorherzusagen: folgt:
pickup_datetime - timestamp value indicating when the cab ride started.
pickup_longitude - float for longitude coordinate of where the cab ride started.
pickup_latitude - float for latitude coordinate of where the cab ride started.
dropoff_longitude - float for longitude coordinate of where the cab ride ended.
dropoff_latitude - float for latitude coordinate of where the cab ride ended.
passenger_count - an integer indicating the number of passengers in the cab ride.
Es ist ein Regressionsproblem.
Alle in diesem Projekt implementierten Schritte
- Datenvorverarbeitung.
- Datenvisualisierung.
- Ausreißeranalyse.
- Fehlende Wertanalyse.
- Feature -Auswahl.
- Korrelationsanalyse.
- Chi-Quadrat-Test.
- Varianzanalyse (ANOVA) -Test
- Multikollinearitätstest.
- Feature Scaling.
- Aufteilung in Zug- und Validierungsdatensatz.
- Hyperparameteroptimierung.
- Modellentwicklung I. Lineare Regression II. Ridge Regression III. Lasso Regression IV. Entscheidungsbaum V. Zufallswald
- Verbesserung der Genauigkeit a) Algorithmus-Tuning b) Ensembles ------ XGBOOST für Regression Abschluss Modell A) Vorhersagen über Validierungsdatensatz b) Erstellen Sie ein eigenständiges Modell für den gesamten Trainingsdatensatz c) Speichern Sie das Modell für die spätere Verwendung
- Python -Code