Wir haben dafür 2 Datensätze verwendet. Der erste Datensatz wurde von der Website des „World Gold Council“ erhalten. Dieser Datensatz ist für die globalen Goldpreise von 1978 bis 2018 bestimmt. Dies sind monatliche Daten.
Da dieser Datensatz nicht der tatsächliche Marktpreis für Gold ist, haben wir beschlossen, den Marktpreis für Gold in Indien zu erhalten. Es waren keine Datensätze für dasselbe verfügbar. Wir haben die Marktdaten von Gold Price India von 2011 bis 2018 für jeden Monat abgekratzt. Da die Daten aus dem Web abgekratzt wurden, haben wir sie manuell überprüft, bevor wir dasselbe für die Analyse verwendet wurden.
Wir haben alle Daten vorverarbeitet, indem wir grundlegende Techniken wie das Ablegen aller Zeilen mit fehlenden Werten verwenden (es gab nichts!). Die meisten Vorverarbeitung wurden an den Daten durchgeführt, da die Daten aus verschiedenen Quellen gesammelt wurden, die Daten in verschiedenen Formaten waren und sie in ein gemeinsames Format formatiert wurden, das von Matplotlib für die angemessene Darstellung verstanden wurde.
● Multiple Regression
Wir versuchen, ein einfaches Regressionsmodell zu erstellen. Es handelt sich um ein multiple Regressionsmodell mit Eingabeparametern als gleitender Durchschnitt der letzten 1 Monat und den letzten 2 Monaten. Wir können in diesem Modell eine Überanpassung eindeutig beobachten. Diese Überanpassung kann darauf zurückzuführen sein, dass die Daten nicht stationär sind.
● Die Stationarität überprüfen
Um die Stationarität der Daten zu überprüfen, zeichnen wir die Daten zusammen mit den Daten auf. Nur durch Betrachtung der Handlung können wir zu dem Schluss kommen, dass die Daten nicht stationär sind. Wir können auch aus den Histogrammen (im Code) sehen, dass die Daten Saisonalität und einige Komponenten von Trends haben. Wir haben auch den Dickey-Fuller-Test durchgeführt, um die Stationarität zu bestätigen. Wir können sehen, dass die ADF-Statistik höher ist als alle kritischen Werte, und der P-Wert ist viel größer als 0,05, sodass wir die Nullhypothese nicht ablehnen können, dass die Daten nicht stationär sind.
● Machen Sie die Daten stationär.
Wir können beobachten, dass es keine Änderung gibt und die Daten immer noch nicht stationär sind. Wir versuchen nun, diese Daten zu unterscheiden. Wir führen die Differenzierung der Ordnung 2 durch und beobachten die folgenden Ergebnisse. Wir können sehen, dass die ADF -Statistik weniger als 1% kritischer Wert hat, daher können wir die Nullhypothese ablehnen und mit einem Konfidenzniveau von 99% abschließen, dass die Daten stationär sind. Wir können diese Daten jetzt zur weiteren Modellierung verwenden.
● Wieder Regressionsmodell
Wir verwenden das alte Regressionsmodell erneut für diese stationären Daten. Wir sehen die folgenden Ergebnisse. Wir erhalten einen Quadratwert von 30%, der unter par liegt. Und der quadratische Stammfehler ist ebenfalls sehr hoch. Obwohl die RMSE eine absolute Statistik ist und nicht verwendet werden kann, um die Anpassungsgüte zu beurteilen, werden wir diesen Wert für einen weiteren Vergleich mit anderen Modellen verwenden
● ACF- und PACF -Diagramme
Wir versuchen nun, ACF -Autokorrelation und PACF -IE -Autokorrelationsdiagramme für diese Daten zu zeichnen, um die Werte von P, Q, D für die Erstellung eines ARIMA -Modells zu finden.
● Sarima -Modell
Wir modellieren diese Daten mit einem Sarima -Modell. Ein Sarima -Modell steht für ein saisonales Arima -Modell. Das Sarima -Modell ist bei einem einfachen Arima -Modell besser, wenn saisonale Daten vorliegen. Dh die Timeseries -Daten haben wiederholende Zyklen. Wir beobachten, dass das Modell viel besser passt als alle früheren Modelle.
Im Folgenden finden Sie die Ergebnisse und die Diagnose des Modells. Wir sehen, dass der R -Quadratwert 73% beträgt, was akzeptabel ist und der RMS -Fehler von 5000 auf 1715 reduziert wurde, was ein gutes Zeichen ist.
Wir verwenden nun den anderen (indischen Marktdatensatz), um interessante Trends in der Preisschwankung zu versuchen und zu finden. Interessant für verschiedene Jahre waren die Goldpreise während der Hochzeitssaison maximal, die diesem Jahr entspricht. Wir können auch einen zyklischen Trend im Preis sehen, es gibt 6-8 Jahre bullisches Wachstum, gefolgt von 6-8 Jahren bärischer Markt. Auch wenn es keine offensichtlichen Trends in den Daten gibt. Der maximale Preis war schon immer März-April oder September bis Oktober, der während oder kurz vor der Hochzeitssaison fällt.
Wir haben jetzt ein Modell, das den Goldpreis mit einer Genauigkeit von fast 73% vorhersagen kann und eine interessante Korrelation zwischen dem Marktpreis von Gold und der Hochzeitssaison in Indien festgestellt hat.
Wir können mit Sicherheit zu dem Schluss kommen, dass der Goldpreis auf dem Weltmarkt und auf dem regionalen indischen Markt sehr volatil ist und viele externe Faktoren abhängen, die nicht so leicht modelliert werden können.
Für zukünftige Arbeiten können wir unser vorhandenes Modell nutzen und aufbauen, um ein Empfehlungssystem aufzubauen, das den Benutzern den richtigen Zeitpunkt für Menschen kaufen und verkaufen, die sich für die Investition in Gold interessieren.