لقد استخدمنا 2 مجموعات بيانات لهذا الغرض. تم الحصول على مجموعة البيانات الأولى من موقع "مجلس الذهب العالمي". مجموعة البيانات هذه مخصصة لأسعار الذهب العالمية من عام 1978 إلى 2018. هذه بيانات شهرية.
نظرًا لأن مجموعة البيانات هذه ليست سعر السوق الفعلي للذهب ، فقد قررنا الحصول على سعر السوق للذهب في الهند. لم تكن هناك مجموعات بيانات متاحة لنفسه. قمنا بتخليص بيانات السوق من Gold Price India من 2011 إلى 2018 لكل شهر. نظرًا لأن البيانات تم تجسيدها من الويب ، فقد تحققنا منها يدويًا قبل استخدامها للتحليلات.
نقوم بعبارة ما قبل جميع البيانات باستخدام التقنيات الأساسية مثل إسقاط جميع الصفوف مع القيم المفقودة (لم يكن هناك أي!). تم إجراء أكثر المعالجة المسبقة للتواريخ ، نظرًا لأن البيانات تم جمعها من مصادر مختلفة ، كانت التواريخ بتنسيقات مختلفة وتم تنسيقها لتنسيق شائع يفهمها Matplotlib لتخطيطها بشكل مناسب.
● الانحدار المتعدد
نحاول إنشاء نموذج الانحدار البسيط. إنه نموذج الانحدار المتعدد مع معلمات الإدخال كمتوسط متحرك خلال شهر واحد والشهرين الماضيين. يمكننا أن نلاحظ بوضوح التورط في هذا النموذج. يمكن أن يعزى هذا التورط إلى أن البيانات غير ثابتة.
● تحقق من الثبات
للتحقق من ثابت البيانات ، نرسم البيانات إلى جانب التواريخ. فقط من خلال النظر إلى المؤامرة ، يمكننا أن نستنتج أن البيانات غير ثابتة. يمكننا أيضًا أن نرى من الرسوم البيانية (في الكود) أن البيانات لديها موسمية وبعض مكونات الاتجاهات. أجرينا أيضًا اختبار Dickey-Fuller لتأكيد الثبات. يمكننا أن نرى إحصاء ADF أعلى من أي من القيم الحرجة ، وقيمة P أكبر بكثير من 0.05 ، لذلك لا يمكننا رفض الفرضية الفارغة بأن البيانات غير ثابتة.
● اجعل البيانات ثابتة لجعل البيانات ثابتة ، نستخدم أبسط تقنية لأخذ تحويل السجل.
يمكننا أن نلاحظ أنه لا يوجد تغيير وأن البيانات لا تزال غير ثابتة. نحاول الآن إجراء الاختلاف في هذه البيانات. نقوم بإجراء اختلاف في الأمر 2 ونلاحظ النتائج التالية. يمكننا أن نرى أن إحصاء ADF أقل من 1 ٪ من القيمة الحرجة ، وبالتالي يمكننا رفض الفرضية الفارغة ونختتم بمستوى الثقة 99 ٪ أن البيانات ثابتة. يمكننا الآن استخدام هذه البيانات لمزيد من النمذجة.
● نموذج الانحدار مرة أخرى
نستخدم نموذج الانحدار القديم مرة أخرى لهذه البيانات الثابتة. نرى النتائج التالية. نحصل على قيمة مربعة R بنسبة 30 ٪ والتي تقل عن قدم المساواة. والخطأ المربع الجذر هو أيضا مرتفع جدا. على الرغم من أن RMSE هي إحصائية مطلقة ولا يمكن استخدامها للحكم على الخير من الملاءمة ، إلا أننا سنستخدم هذه القيمة لمزيد من المقارنة مع النماذج الأخرى
● مخططات ACF و PACF
نحاول الآن رسم مخططات الارتباط التلقائي الجزئي للعلاقة الجزئية لهذه البيانات للعثور على قيم P و Q و D لإنشاء نموذج ARIMA.
● نموذج ساريما
نحن نمثل هذه البيانات باستخدام نموذج سريما. نموذج ساريما يرمز إلى نموذج ARIMA الموسمي. نموذج ساريما أفضل على نموذج ARIMA بسيط عندما تكون هناك بيانات موسمية. أي أن بيانات الوقت لديها دورات تكرار. نلاحظ أن النموذج يناسب أفضل بكثير من أي من النماذج السابقة.
فيما يلي النتائج وتشخيص النموذج. نرى أن القيمة المربعة R هي 73 ٪ وهو أمر مقبول وخفض خطأ RMS إلى 1715 من 5000 ، وهو علامة جيدة.
نستخدم الآن مجموعة بيانات السوق الأخرى (الهندية) لمحاولة وإيجاد أي اتجاهات مثيرة للاهتمام في تقلب الأسعار. بشكل مؤكد لسنوات مختلفة ، كانت أسعار الذهب أقصى حد خلال موسم الزفاف المقابل لتلك العام. يمكننا أيضًا أن نرى اتجاهًا دوريًا في السعر ، هناك 6-8 سنوات من النمو الصعودي تليها 6-8 سنوات من السوق الهبودية. غير ذلك بخلاف أنه لا توجد اتجاهات واضحة في البيانات. كان الحد الأقصى للسعر دائمًا هو مارس إلى أبريل أو سبتمبر إلى أكتوبر ينخفض خلال موسم الزفاف أو قبله مباشرة.
لدينا الآن نموذج يمكن أن يتنبأ بسعر الذهب بدقة 73 ٪ تقريبًا ووجدنا وجود علاقة مثيرة للاهتمام بين سعر السوق للذهب وموسم الزفاف في الهند.
يمكننا أن نستنتج بأمان أن سعر الذهب في السوق العالمية والسوق الهندي الإقليمي متقلبين للغاية ويعتمدان على الكثير من العوامل الخارجية التي لا يمكن تصميمها بسهولة.
بالنسبة للعمل المستقبلي ، يمكننا استخدام نموذجنا الحالي والبناء عليه لإنشاء نظام توصية يشير إلى المستخدمين في الوقت المناسب لشراء وبيع الذهب للأشخاص الذين يهتمون بالاستثمار في الذهب.