我们为此使用了2个数据集。第一个数据集已从“世界黄金委员会”的网站中获得。该数据集适用于1978年至2018年的全球黄金价格。这是每月数据。
由于该数据集不是黄金的实际市场价格,因此我们决定在印度获得黄金的市场价格。没有相同的数据集可用。从2011年至2018年,我们每月从2011年至2018年将黄金价格的市场数据刮擦。由于数据是从网络上刮下来的,因此我们在将其使用相同的分析之前手动验证了它。
我们通过使用基本技术(例如丢弃所有缺少值的行(没有!)的基本技术来预处理所有数据。最预处理是对日期进行的,因为数据是从不同来源收集的,日期是不同的格式,并将其格式化为通用格式,Matplotlib可以理解,以适当地绘制其适当的绘制。
●多重回归
我们尝试创建一个简单的回归模型。这是一个多元回归模型,其输入参数是过去1个月和过去2个月的移动平均值。在此模型中,我们可以清楚地观察到过度拟合。这种过度拟合可以归因于数据是非平稳的。
●检查平稳性
为了检查数据的平稳性,我们将数据与日期一起绘制数据。仅通过查看图,我们就可以得出结论,数据是非平稳的。我们还可以从直方图(在代码中)看到数据具有季节性和趋势的某些组成部分。我们还进行了Dickey-Fuller测试以确认平稳性。我们可以看到ADF统计量高于任何临界值,并且P值大大远远大于0.05,因此我们不能拒绝数据是非平稳的假设。
●使数据STENTORY以使数据固定,我们使用进行日志转换的最简单技术。
我们可以观察到没有变化,数据仍然是非平稳的。现在,我们尝试在此数据上执行差异。我们执行订单2的差异并观察以下结果。我们可以看到,ADF统计量小于1%的临界值,因此我们可以拒绝零假设,并以99%的置信水平得出数据是固定的。现在,我们可以将这些数据用于进一步建模。
●再次回归模型
我们再次将旧回归模型用于此固定数据。我们看到以下结果。我们获得30%的R平方值,低于标准杆。均方根误差也很高。尽管RMSE是绝对的统计数据,并且不能用来判断合适的良好,但我们将使用此值与其他模型进行进一步比较
●ACF和PACF图
现在,我们尝试绘制此数据的ACF IE自相关和PACF IE部分自相关图,以找到创建ARIMA模型的P,Q,D值。
●Sarima型号
我们使用Sarima模型对这些数据进行建模。 Sarima模型代表季节性Arima模型。当有季节性数据时,Sarima模型在简单的Arima模型上更好。即时间剧数据具有重复周期。我们观察到该模型比以前的任何模型都要好得多。
以下是模型的结果和诊断。我们看到R平方值为73%,这是可以接受的,RMS误差已从5000降低到1715,这是一个好兆头。
现在,我们使用另一个(印度市场数据集)尝试并找到价格波动中的任何有趣趋势。在不同年份,在婚礼季节,黄金价格最高,与当年相对应。我们还可以看到价格循环趋势,有6 - 8年的看涨增长,然后是6 - 8年的看跌市场。除此之外,数据中没有明显的趋势。最高价格始终是三月至4月或9月至10月,在婚礼季节之前或在婚礼季节之前。
现在,我们有了一个模型,可以以几乎73%的精度预测黄金价格,并发现黄金市场价格与印度的婚礼季节之间存在有趣的相关性。
我们可以肯定地得出结论,世界市场和区域印度市场的黄金价格非常波动,并且取决于许多外部因素,这些因素无法如此容易地建模。
对于将来的工作,我们可以利用并建立在现有模型的基础上来建立一个建议系统,建议用户适当的时候买卖黄金,为那些有兴趣投资黄金的人。