прогноз цен на авиабилеты
Проект SDAIA Bootcamp 2 — парсинг веб-страниц/линейная регрессия.
Целью этого проекта является прогнозирование цен на билеты на предстоящие рейсы, чтобы помочь клиентам выбрать оптимальное время для поездки и самый дешевый рейс до нужного пункта назначения. Модель случайной лесной регрессии применяется для прогнозирования цен на авиабилеты на основе данных, полученных с Kayak.
Оглавление
- Предложение
- MVP
- Соскабливание
- Анализ и результаты
- Презентация
- Мобильное приложение
- Авторы
Предложение проекта
Проектное предложение можно найти здесь.
MVP проекта
MVP проекта можно найти здесь.
Соскабливание
Блокнот для каяка-скребка можно найти здесь.
Вот демо-версия скрапера в действии (играется на 2-кратной скорости):
Соскобленные данные можно найти здесь.
Всего данные состоят из 55 363 строк и 7 столбцов.
Анализ и результаты
Блокнот проекта можно найти здесь.
Выбранные функции:
- Источник (для этого проекта было выбрано 4 источника)
- Направление (для этого проекта было выбрано 4 направления)
- Всего остановок
- Средняя цена на авиакомпанию
- Продолжительность
- Цена (целевая)
Корреляция характеристик:
Экспериментирую с разными моделями:
Последней выбранной моделью является модель регрессии случайного леса со:
Метрика | Счет |
---|
МАЭ | 61,87 |
МШЭ | 40409.87 |
RMSE | 201.02 |
Таким образом, окончательная модель способна прогнозировать цены на авиабилеты в пределах около ≈ 61,87 доллара США.
Окончательную модель можно найти здесь.
Презентация
Презентацию можно найти здесь.
Мобильное приложение
Мы также разработали приложение для Android, которое определяет средние расчетные цены для выбранного маршрута и месяца на основе собранных нами данных.
Ниже показана демо-версия мобильного приложения:
Авторы
Мешаль Аламр
Нора Алхалифа