Prédiction de la cabine
Le dossier GitHub contient:
- R Code de projet dans «Format.
- Python Code de projet dans «.Ipynb Format»: prédiction des tarifs de cabine à l'aide de python.ipynb
- Rapport de projet: Cab des tarifs Prédiction.pdf
- Instruction du problème.pdf
- Modèle enregistré formé sur l'ensemble de données de formation entier de Python: CAB_FARE_XGBOOST_MODEL.RAR
- Modèle enregistré formé sur l'ensemble de données de formation entier de Python: final_xgboost_model_using_r.rar
- Prédictions sur l'ensemble de données de test au format CSV: prédictions_xgboost.csv
Déclaration de problème
L'objectif de ce projet est de prédire le montant des tarifs de la cabine en fonction des attributs de données suivants dans l'ensemble de données sont les suivants:
pickup_datetime - timestamp value indicating when the cab ride started.
pickup_longitude - float for longitude coordinate of where the cab ride started.
pickup_latitude - float for latitude coordinate of where the cab ride started.
dropoff_longitude - float for longitude coordinate of where the cab ride ended.
dropoff_latitude - float for latitude coordinate of where the cab ride ended.
passenger_count - an integer indicating the number of passengers in the cab ride.
C'est un problème de régression.
Toutes les étapes mises en œuvre dans ce projet
- Prétraitement des données.
- Visualisation des données.
- Analyse aberrante.
- Analyse de la valeur manquante.
- Sélection des fonctionnalités.
- Analyse de corrélation.
- Test du chi carré.
- Test d'analyse de la variance (ANOVA)
- Test de multicolinéarité.
- Échelle de fonction.
- Diffusion en ensemble de données de train et de validation.
- Optimisation de l'hyperparamètre.
- Développement du modèle I. Régression linéaire II. Régression de la crête III. Régression lasso IV. Tree de décision V. Forest aléatoire
- Améliorer la précision a) Autorisation de l'algorithme b) Ensembles ------ xgboost pour la régression Finaliser le modèle a) Prédictions sur l'ensemble de données de validation b) Créer un modèle autonome sur l'ensemble de données de formation C) Enregistrer le modèle pour une utilisation ultérieure
- Code python