Predicción de taxi
La carpeta GitHub contiene:
- R Código de proyecto en '.R Format': Predicción de tarifas de CAB usando RR
- Código de proyecto de Python en '.IPynb Format': Predicción de tarifas de CAB usando python.ipynb
- Informe del proyecto: Predicción de tarifa de taxi.pdf
- Declaración del problema.pdf
- Modelo guardado entrenado en todo el conjunto de datos de entrenamiento de Python: CAB_FARE_XGBOOST_MODEL.RAR
- Modelo guardado entrenado en todo el conjunto de datos de entrenamiento de Python: FINAL_XGBOOST_MODEL_USING_R.RAR
- Predicciones sobre el conjunto de datos de prueba en formato CSV: predicciones_xgboost.csv
Declaración del problema
El objetivo de este proyecto es predecir la cantidad de tarifa de CAB basada en los siguientes atributos de datos en el conjunto de datos son los siguientes:
pickup_datetime - timestamp value indicating when the cab ride started.
pickup_longitude - float for longitude coordinate of where the cab ride started.
pickup_latitude - float for latitude coordinate of where the cab ride started.
dropoff_longitude - float for longitude coordinate of where the cab ride ended.
dropoff_latitude - float for latitude coordinate of where the cab ride ended.
passenger_count - an integer indicating the number of passengers in the cab ride.
Es un problema de regresión.
Todos los pasos implementados en este proyecto
- Precrocesamiento de datos.
- Visualización de datos.
- Análisis atípico.
- Análisis de valor faltante.
- Selección de características.
- Análisis de correlación.
- Prueba de chi-cuadrado.
- Prueba de análisis de varianza (ANOVA)
- Prueba de multicolinealidad.
- Escala de características.
- Dividido en tren y conjunto de datos de validación.
- Optimización de hiperparameter.
- Desarrollo del modelo I. Regresión lineal II. Regresión de cresta III. LASSO REEMPRESIÓN IV. Árbol de decisión V. bosque aleatorio
- Mejorar la precisión a) Ajuste del algoritmo B) Enjunes ------ XGBOOST para la regresión finalizar el modelo A) Predicciones en el conjunto de datos de validación B) Crear modelo independiente en el conjunto de datos de entrenamiento completo c) Guardar el modelo para uso posterior
- Código de Python