Кабина-пластинка
Папка GitHub содержит:
- R код проекта в '.r Format': прогноз за прокат CAB с использованием RR
- Код проекта Python в '.ipynb format': прогноз за прокат CAB с использованием python.ipynb
- Отчет о проекте: Прогнозирование проезда CAB.PDF
- Задача проблемы.pdf
- Сохраняемая модель, обученная цельному набору данных с Python: CAB_FARE_XGBOOST_MODEL.RAR
- Сохраняемая модель, обученная цельному набору данных с Python: final_xgboost_model_using_r.rar
- Прогнозы в тестовом наборе данных в формате CSV: прогнозы_XGBOOST.CSV
Запись о проблеме
Цель этого проекта состоит в том, чтобы предсказать сумму за прокат CAB, основанную на следующих атрибутах данных в наборе данных, следующие:
pickup_datetime - timestamp value indicating when the cab ride started.
pickup_longitude - float for longitude coordinate of where the cab ride started.
pickup_latitude - float for latitude coordinate of where the cab ride started.
dropoff_longitude - float for longitude coordinate of where the cab ride ended.
dropoff_latitude - float for latitude coordinate of where the cab ride ended.
passenger_count - an integer indicating the number of passengers in the cab ride.
Это проблема регрессии.
Все шаги, выполненные в этом проекте
- Предварительная обработка данных.
- Визуализация данных.
- Анализ выброса.
- Анализ недостающих стоимости.
- Выбор функций.
- Корреляционный анализ.
- Тест хи-квадрат.
- Анализ дисперсионной (ANOVA) тест
- Испытание на мультиколлинеарность.
- Масштабирование функций.
- Разделение на набор данных поезда и проверки.
- Оптимизация гиперпараметра.
- Разработка модели I. Линейная регрессия II. Регрессия хребта III. Лассо регрессия IV. Дерево решений V. Случайный лес
- Повышение точности a) Настройка алгоритма b) ансамбли ------ xgboost для регрессии. Дополнительная модель A) Прогнозы в наборе данных валидации B) Создайте автономную модель на весь набор учебного заведения C) Сохранить модель для последующего использования
- Код Python