航班价格预测
SDAIA Bootcamp 项目 2 - 网页抓取/线性回归。
该项目旨在预测即将到来的航班的机票价格,以帮助客户选择最佳旅行时间和飞往所需目的地的最便宜的航班。应用随机森林回归模型根据从 Kayak 抓取的数据来预测航班价格。
目录
项目提案
项目提案可以在这里找到。
项目最有价值专家
项目 MVP 可以在这里找到。
刮痧
可以在此处找到 Kayak Scraper Notebook。
以下是正在运行的刮刀的演示(以 2 倍速度播放):
可以在此处找到抓取的数据。
数据总共由 55,363 行和 7 列组成。
分析与结果
项目笔记本可以在这里找到。
选定的功能是:
- 来源(本项目选择了 4 个来源)
- 目的地(本项目选择了4个目的地)
- 总停靠站
- 每家航空公司的平均价格
- 期间
- 价格(目标)
特征相关性:
尝试不同的模型:
最终选择的模型是随机森林回归模型:
公制 | 分数 |
---|
MAE | 61.87 |
均方误差 | 40409.87 |
均方根误差 | 201.02 |
因此,最终模型能够预测约 61.87 美元左右的机票价格。
最终模型可以在这里找到。
推介会
演示文稿可以在这里找到。
手机应用程序
我们还在 Android 上开发了一款应用程序,可以根据我们抓取的数据查找选定路线和月份的平均预估价格。
下面显示了移动应用程序的演示:
作者