该项目是我的研究生模块中称为Applied Statistics的要求之一。该项目的主要目的是生成一个准确的模型,以根据功能预测航空公司的票价。该项目中使用的机器学习模型是简单的线性回归和多个线性回归。此外,还执行使用自动Arima的时间,以预测2023年特定航空公司的价格。该项目的主要过程是进行探索性数据分析,数据预处理,Correaltion分析,模型培训,时间训练,时间分析,时间分析,分析,时间分析,时间流动和使用ADF的假设检验。
该项目使用R Studio IDE用R语言进行编码。
该项目中使用的2个数据集位于“数据集”文件夹中。
可以在“ code.r”文件中查看完整代码。
如果有人想使用代码的一部分。请参考。谢谢。
该领域内的当前研究表明,可以使用一组特定功能来预测航空公司的票价,这些功能可以是有用的公司和游客来推断价格,何时是购买飞行票的最佳时机。随着航班票的价格不时地付出了季节性价格,因此很难进行准确的预测。因此,现在主要的问题是可以根据与飞行本身有关的功能(例如飞行持续时间,停靠次数等)预测票价。
在相关分析期间,在平均价格和剩余的几天内购买票证的较强正相关性为0.92。这是建立的所有相关性中最强的。线性回归分析发现,特征“平均价格”和“ days_left”可以解释“平均价格”变化的62.53%。此外,时间分析预测,2023年4月,喷气式航空的票价为12431.34卢比。
总体而言,该项目的发现得出的结论是,这些功能可用于预测航空公司的票价。然而,可以考虑更多的功能,例如天气状况或使用数值变量更多地扩展数据集,以预测更准确的结果。
该项目涵盖了从数据预处理到开发线性回归模型的所有过程。该项目中发现的结果包括前面提到的所有统计问题。进行数据预处理以将数据转换为适合线性回归模型的合适标准。完成相关分析以识别哪些是强烈依赖彼此的变量,这些变量对线性回归分析有益。基于相关分析,创建了线性回归模型,以对航空公司飞行价格票进行预测。此外,进行了时间分析,以预测2023年喷气航空航空公司的票价为12431.34卢比。最后,进行了使用增强Dickey Fuller(ADF)或单位根测试的假设检验,以确定时间表是否固定。
总体而言,提供的功能可以推断出航空公司的价格票。但是,并非所有功能都被使用并且足够强大以完成这项任务。因此,可以考虑更多因素,例如天气状况或使用更多的数值变量来扩展数据集,以预测更准确的结果。