PREDICÇÃO DE TACE-FARE
Pasta Github contém:
- R Código de Projeto em '.r formato': previsão da tarifa de táxi usando RR
- Código de Projeto Python em '.ipynb formato': previsão de tarifa de táxi usando python.ipynb
- Relatório do projeto: previsão da tarifa de táxi.pdf
- Problema Declaração.pdf
- Modelo salvo treinado em todo o conjunto de dados de treinamento da Python: CAB_FARE_XGBOOST_MODEL.RAR
- Modelo salvo treinado em conjunto de treinamento de treinamento inteiro da Python: final_xgboost_model_using_r.
- Previsões no conjunto de dados de teste no formato CSV: previsões_xgboost.csv
Declaração de problemas
O objetivo deste projeto é prever o valor da tarifa do táxi com base nos seguintes atributos de dados no conjunto de dados são os seguintes:
pickup_datetime - timestamp value indicating when the cab ride started.
pickup_longitude - float for longitude coordinate of where the cab ride started.
pickup_latitude - float for latitude coordinate of where the cab ride started.
dropoff_longitude - float for longitude coordinate of where the cab ride ended.
dropoff_latitude - float for latitude coordinate of where the cab ride ended.
passenger_count - an integer indicating the number of passengers in the cab ride.
É um problema de regressão.
Todas as etapas implementadas neste projeto
- Pré-processamento de dados.
- Visualização de dados.
- Análise externa.
- Análise de valor ausente.
- Seleção de recursos.
- Análise de correlação.
- Teste do qui-quadrado.
- Teste de análise de variância (ANOVA)
- Teste de multicolinearidade.
- Escala de recursos.
- Dividindo -se no conjunto de dados de trem e validação.
- Otimização de hiperparâmetro.
- Desenvolvimento do modelo I. Regressão linear II. Regressão de Ridge III. Regressão de Lasso IV. Árvore de decisão V. Floresta aleatória
- Melhorar a precisão a) ajuste do algoritmo b) Conjuntos ------ XGBOOST para regressão Finalize Modelo A) Previsões no conjunto de dados de validação B) Crie modelo de modelo de treinamento independente no conjunto de dados de treinamento c) Salvar modelo para uso posterior
- Código Python