これに2つのデータセットを使用しました。最初のデータセットは、「World Gold Council's」Webサイトから得られました。このデータセットは、1978年から2018年までの世界的な金価格向けです。これは毎月のデータです。
このデータセットは金の実際の市場価格ではないため、インドで金の市場価格を取得することにしました。同じもので利用可能なデータセットはありませんでした。 2011年から2018年までの金価格インドから市場データを毎月削りました。データはWebから削られたため、分析に同じものを使用する前に手動で検証しました。
欠損値ですべての行をドロップするなどの基本的な手法を使用して、すべてのデータを事前に処理します(何もありませんでした!)。データは異なるソースから収集されたため、日付は異なる形式であり、適切にプロットするためにMatplotlibが理解する共通形式にフォーマットされたため、日付に最も前処理が行われました。
●重度回帰
単純な回帰モデルを作成しようとします。これは、過去1か月と過去2か月の移動平均としての入力パラメーターを備えた重回帰モデルです。このモデルでは、過剰適合を明確に観察できます。この過剰適合は、データが非定常であることに起因する可能性があります。
●定常性を確認します
データの定常性を確認するために、日付とともにデータをプロットします。プロットを見るだけで、データは非定常であると結論付けることができます。また、ヒストグラム(コード内)から、データに季節性とトレンドのコンポーネントがあることも確認できます。また、Dickey-Fullerテストを実行して、定常性を確認しました。 ADF統計が臨界値のいずれよりも高いことがわかり、P値は0.05を超えるため、データが非定常であるという帰無仮説を拒否することはできません。
●データを静止させるためにデータを固定するために、ログ変換の最も簡単な手法を使用します。
変更がなく、データはまだ非定常であることを観察できます。これで、このデータの違いを実行しようとしています。注文2の違いを実行し、次の結果を観察します。ADF統計が1%未満の臨界値であるため、帰無仮説を拒否し、データが静止していると99%の信頼レベルで結論付けることができます。これで、このデータを使用してさらにモデリングできます。
●再び回帰モデル
この固定データには、古い回帰モデルを再度使用します。次の結果が表示されます。30%のr平方値を取得します。また、ルート平均平方根誤差も非常に高いです。 RMSEは絶対統計であり、適合度を判断するために使用することはできませんが、他のモデルとのさらなる比較のためにこの値を使用します
●ACFおよびPACFプロット
ここで、ACF IE AutecorrelationとPACF IEこのデータの部分的な自己相関プロットをプロットして、ARIMAモデルを作成するためのP、Q、D値を見つけることを試みます。
●サリマモデル
サリマモデルを使用してこのデータをモデル化します。サリマモデルは、季節のアリマモデルの略です。 Sarimaモデルは、季節データがある場合、単純なArimaモデルよりも優れています。つまり、Timeseriesデータには繰り返しサイクルがあります。モデルは以前のモデルのいずれよりもはるかに適していることを観察します。
以下はモデルの結果と診断です。Rスクエア値は73%であり、許容可能であり、RMSエラーは5000から1715に減少していることがわかります。これは良い兆候です。
現在、他の(インドの市場データセット)を使用して、価格の変動の興味深い傾向を試して見つけます。さまざまな年の間、その年に対応する結婚式のシーズン中に金の価格は最大でした。また、価格の周期的な傾向を見ることができます。6〜8年の強気の成長に続いて、6〜8年の弱気市場があります。それ以外は、データに明らかな傾向はありません。最大価格は、結婚式のシーズン中または直前に、4月または9月から10月にかけて常に3月または10月に行われてきました。
現在、ほぼ73%の精度で金価格を予測できるモデルがあり、金の市場価格とインドの結婚式のシーズンとの間に興味深い相関関係があることがわかりました。
世界市場と地域のインド市場における金の価格は非常に不安定であり、それほど簡単にモデル化できない多くの外部要因に依存していると安全に結論付けることができます。
将来の作業のために、既存のモデルを使用して構築して、ユーザーが金への投資に関心を持っている人のために金を売買するのに適切な時期を示唆する推奨システムを構築できます。