我們為此使用了2個數據集。第一個數據集已從“世界黃金委員會”的網站中獲得。該數據集適用於1978年至2018年的全球黃金價格。這是每月數據。
由於該數據集不是黃金的實際市場價格,因此我們決定在印度獲得黃金的市場價格。沒有相同的數據集可用。從2011年至2018年,我們每月從2011年至2018年將黃金價格的市場數據刮擦。由於數據是從網絡上刮下來的,因此我們在將其使用相同的分析之前手動驗證了它。
我們通過使用基本技術(例如丟棄所有缺少值的行(沒有!)的基本技術來預處理所有數據。最預處理是對日期進行的,因為數據是從不同來源收集的,日期是不同的格式,並將其格式化為通用格式,Matplotlib可以理解,以適當地繪製其適當的繪製。
●多重回歸
我們嘗試創建一個簡單的回歸模型。這是一個多元回歸模型,其輸入參數是過去1個月和過去2個月的移動平均值。在此模型中,我們可以清楚地觀察到過度擬合。這種過度擬合可以歸因於數據是非平穩的。
●檢查平穩性
為了檢查數據的平穩性,我們將數據與日期一起繪製數據。僅通過查看圖,我們就可以得出結論,數據是非平穩的。我們還可以從直方圖(在代碼中)看到數據具有季節性和趨勢的某些組成部分。我們還進行了Dickey-Fuller測試以確認平穩性。我們可以看到ADF統計量高於任何臨界值,並且P值大大遠遠大於0.05,因此我們不能拒絕數據是非平穩的假設。
●使數據STENTORY以使數據固定,我們使用進行日誌轉換的最簡單技術。
我們可以觀察到沒有變化,數據仍然是非平穩的。現在,我們嘗試在此數據上執行差異。我們執行訂單2的差異並觀察以下結果。我們可以看到,ADF統計量小於1%的臨界值,因此我們可以拒絕零假設,並以99%的置信水平得出數據是固定的。現在,我們可以將這些數據用於進一步建模。
●再次回歸模型
我們再次將舊回歸模型用於此固定數據。我們看到以下結果。我們獲得30%的R平方值,低於標準桿。均方根誤差也很高。儘管RMSE是絕對的統計數據,並且不能用來判斷合適的良好,但我們將使用此值與其他模型進行進一步比較
●ACF和PACF圖
現在,我們嘗試繪製此數據的ACF IE自相關和PACF IE部分自相關圖,以找到創建ARIMA模型的P,Q,D值。
●Sarima型號
我們使用Sarima模型對這些數據進行建模。 Sarima模型代表季節性Arima模型。當有季節性數據時,Sarima模型在簡單的Arima模型上更好。即時間劇數據具有重複週期。我們觀察到該模型比以前的任何模型都要好得多。
以下是模型的結果和診斷。我們看到R平方值為73%,這是可以接受的,RMS誤差已從5000降低到1715,這是一個好兆頭。
現在,我們使用另一個(印度市場數據集)嘗試並找到價格波動中的任何有趣趨勢。在不同年份,在婚禮季節,黃金價格最高,與當年相對應。我們還可以看到價格循環趨勢,有6 - 8年的看漲增長,然後是6 - 8年的看跌市場。除此之外,數據中沒有明顯的趨勢。最高價格始終是三月至4月或9月至10月,在婚禮季節之前或在婚禮季節之前。
現在,我們有了一個模型,可以以幾乎73%的精度預測黃金價格,並發現黃金市場價格與印度的婚禮季節之間存在有趣的相關性。
我們可以肯定地得出結論,世界市場和區域印度市場的黃金價格非常波動,並且取決於許多外部因素,這些因素無法如此容易地建模。
對於將來的工作,我們可以利用並建立在現有模型的基礎上來建立一個建議系統,建議用戶適當的時候買賣黃金,為那些有興趣投資黃金的人。