Мы использовали 2 набора данных для этого. Первый набор данных был получен с веб -сайта «Мировой золотой совет». Этот набор данных предназначен для мировых цен с 1978 по 2018 год. Это ежемесячные данные.
Поскольку этот набор данных не является фактической рыночной ценой золота, мы решили получить рыночную цену на золото в Индии. Там не было наборов данных, доступных для того же. Мы скрещивали рыночные данные из Gold Price India с 2011 по 2018 год за каждый месяц. Поскольку данные были сорваны из Интернета, мы проверили их вручную, прежде чем использовать их для аналитики.
Мы предварительно обрабатываем все данные, используя основные методы, такие как сбрасывая все строки с отсутствующими значениями (их не было!). Наибольшая предварительная обработка была сделана в даты, поскольку данные были собраны из разных источников, даты были в разных форматах, и они были отформатированы в общий формат, который был бы понят Matplotlib для его надлежащего построения.
● множественная регрессия
Мы пытаемся создать простую регрессионную модель. Это модель множественной регрессии с входными параметрами в качестве скользящей средней за последние 1 месяц и последние 2 месяца. Мы можем четко наблюдать за переосмыслением в этой модели. Это переосмысление может быть связано с тем, что данные не стационарны.
● Проверьте стационарность
Чтобы проверить стационарность данных, мы планируем данные вместе с датами. Просто посмотрев на сюжет, мы можем сделать вывод, что данные не стационарны. Мы также можем видеть из гистограмм (в коде), что данные имеют сезонность и некоторые компоненты тенденций. Мы также выполнили тест Дики-Фуллера, чтобы подтвердить стационарность. Мы видим, что статистика ADF выше любого из критических значений, а значение p намного больше 0,05, поэтому мы не можем отклонить нулевую гипотезу о том, что данные не стационарны.
● Сделайте данные стационарными, чтобы сделать данные стационарными, мы используем простейшую технику преобразования журнала.
Мы можем заметить, что нет никаких изменений, и данные все еще не стационарны. Теперь мы пытаемся выполнить различие в этих данных. Мы выполняем различие от порядка 2 и наблюдаем следующие результаты. Мы видим, что статистика ADF составляет менее 1% критического значения, следовательно, мы можем отклонить нулевую гипотезу и заключить уровень достоверности 99%, что данные являются стационарными. Теперь мы можем использовать эти данные для дальнейшего моделирования.
● снова модель регрессии
Мы снова используем старую регрессионную модель для этих стационарных данных. Мы видим следующие результаты. Мы получаем квадратное значение 30%, которое ниже уровня. И средняя квадратная ошибка также очень высока. Хотя RMSE является абсолютной статистикой, и его нельзя использовать для оценки достоинства соответствия, мы будем использовать это значение для дальнейшего сравнения с другими моделями
● Графики ACF и PACF
Теперь мы пытаемся построить ACF, т.е. автокорреляцию и частичную автокорреляционную графики PACF для этих данных, чтобы найти значения P, Q, D для создания модели ARIMA.
● Модель сарима
Мы моделируем эти данные, используя модель саримы. Модель сарима означает сезонную модель Аримы. Модель Sarima лучше по сравнению с простой моделью ARIMA, когда есть сезонные данные. Т.е. данные о времени имеют повторяющиеся циклы. Мы наблюдаем, что модель подходит намного лучше, чем любая из предыдущих моделей.
Ниже приведены результаты и диагностика модели. Мы видим, что квадратное значение R составляет 73%, что является приемлемым, а среднеквадратичная ошибка уменьшилась до 1715 с 5000, что является хорошим знаком.
В настоящее время мы используем другой (набор данных индийского рынка) для попыток и поиска любых интересных тенденций в колебаниях цен. Интересно в течение различных лет цены на золото были максимально в течение свадебного сезона, соответствующего этому году. Мы также можем увидеть циклическую тенденцию в цене, на 6-8 лет бычьего роста с последующим 6-8-летним медвежьим рынком. Помимо того, что в данных нет очевидных тенденций. Максимальная цена всегда была март-апрель или сентябрь-октябрь, которая падает во время или непосредственно перед свадебным сезоном.
Теперь у нас есть модель, которая может предсказать цену на золото с почти 73% точностью и нашла интересную корреляцию между рыночной ценой на золото и свадебным сезоном в Индии.
Мы можем с уверенностью сделать вывод, что цена на золото на мировом рынке и региональный индийский рынок очень изменчив и зависят от многих внешних факторов, которые нельзя моделировать так легко.
Для будущей работы мы можем использовать и опираться на нашу существующую модель, чтобы создать систему рекомендаций, предлагая пользователям подходящее время для покупки и продажи золота для людей, которые заинтересованы в инвестировании в золото.