เราใช้ชุดข้อมูล 2 ชุดสำหรับสิ่งนี้ ชุดข้อมูลชุดแรกได้มาจากเว็บไซต์“ World Gold Council” ชุดข้อมูลนี้มีไว้สำหรับราคาทองคำทั่วโลกตั้งแต่ปี 2521 ถึง 2561 นี่คือข้อมูลรายเดือน
เนื่องจากชุดข้อมูลนี้ไม่ใช่ราคาตลาดทองคำเราจึงตัดสินใจที่จะได้รับราคาตลาดทองคำในอินเดีย ไม่มีชุดข้อมูลสำหรับเดียวกัน เราคัดลอกข้อมูลตลาดจาก Gold Price India ตั้งแต่ปี 2011 - 2018 สำหรับทุกเดือน เนื่องจากข้อมูลถูกคัดลอกมาจากเว็บเราจึงตรวจสอบด้วยตนเองก่อนที่จะใช้สิ่งเดียวกันสำหรับการวิเคราะห์
เราประมวลผลข้อมูลทั้งหมดล่วงหน้าโดยใช้เทคนิคพื้นฐานเช่นลดแถวทั้งหมดด้วยค่าที่ขาดหายไป (ไม่มีอะไรเลย!) การประมวลผลล่วงหน้ามากที่สุดได้ทำในวันที่เนื่องจากข้อมูลถูกรวบรวมจากแหล่งที่แตกต่างกันวันที่อยู่ในรูปแบบที่แตกต่างกันและพวกเขาถูกจัดรูปแบบเป็นรูปแบบทั่วไปซึ่งจะเข้าใจได้โดย Matplotlib สำหรับการวางแผนอย่างเหมาะสม
●การถดถอยหลายครั้ง
เราพยายามสร้างแบบจำลองการถดถอยอย่างง่าย มันเป็นโมเดลการถดถอยหลายตัวที่มีพารามิเตอร์อินพุตเป็นค่าเฉลี่ยเคลื่อนที่ของ 1 เดือนที่ผ่านมาและ 2 เดือนที่ผ่านมา เราสามารถสังเกตเห็นได้อย่างชัดเจนมากเกินไปในรูปแบบนี้การ overfitting นี้สามารถนำมาประกอบกับข้อมูลที่ไม่คงที่
●ตรวจสอบความคงที่
ในการตรวจสอบความคงที่ของข้อมูลเราพล็อตข้อมูลพร้อมกับวันที่ เพียงแค่ดูพล็อตเราสามารถสรุปได้ว่าข้อมูลนั้นไม่ได้อยู่กับที่ นอกจากนี้เรายังสามารถเห็นได้จากฮิสโตแกรม (ในรหัส) ว่าข้อมูลมีฤดูกาลและส่วนประกอบบางอย่างของแนวโน้ม นอกจากนี้เรายังทำการทดสอบ Dickey-Fuller เพื่อยืนยันความคงที่ เราสามารถเห็นสถิติ ADF สูงกว่าค่าวิกฤตใด ๆ และค่า P มากกว่า 0.05 มากดังนั้นเราจึงไม่สามารถปฏิเสธสมมติฐานว่างได้ว่าข้อมูลนั้นไม่คงที่
●ทำให้ข้อมูลคงที่เพื่อให้ข้อมูลอยู่กับที่เราใช้เทคนิคที่ง่ายที่สุดในการแปลงบันทึก
เราสามารถสังเกตได้ว่าไม่มีการเปลี่ยนแปลงและข้อมูลยังคงไม่เป็นไปได้ ตอนนี้เราพยายามที่จะดำเนินการที่แตกต่างกันในข้อมูลนี้ เราดำเนินการแตกต่างกันของคำสั่งซื้อ 2 และสังเกตผลลัพธ์ต่อไปนี้เราจะเห็นได้ว่าสถิติ ADF นั้นน้อยกว่า 1% ค่าวิกฤตดังนั้นเราจึงสามารถปฏิเสธสมมติฐานว่างและสรุปด้วยระดับความเชื่อมั่น 99% ที่ข้อมูลอยู่นิ่ง ตอนนี้เราสามารถใช้ข้อมูลนี้สำหรับการสร้างแบบจำลองเพิ่มเติม
●โมเดลการถดถอยอีกครั้ง
เราใช้โมเดลการถดถอยเก่าอีกครั้งสำหรับข้อมูลที่อยู่นิ่งนี้ เราเห็นผลลัพธ์ต่อไปนี้เราได้รับค่าสี่สแควร์ที่ 30% ซึ่งต่ำกว่าตราไว้ และข้อผิดพลาดของรูทค่าเฉลี่ยสแควร์ก็สูงมากเช่นกัน แม้ว่า RMSE จะเป็นสถิติที่แน่นอนและไม่สามารถใช้เพื่อตัดสินความดีของความพอดี แต่เราจะใช้ค่านี้เพื่อเปรียบเทียบเพิ่มเติมกับรุ่นอื่น ๆ
●แปลง ACF และ PACF
ตอนนี้เราพยายามที่จะพล็อต ACF เช่น Autocorrelation และ PACF คือแปลงความสัมพันธ์อัตโนมัติบางส่วนสำหรับข้อมูลนี้เพื่อค้นหาค่า P, Q, D สำหรับการสร้างโมเดล ARIMA
●รุ่น Sarima
เราสร้างแบบจำลองข้อมูลนี้โดยใช้โมเดล Sarima โมเดล Sarima ย่อมาจากโมเดล Arima ตามฤดูกาล โมเดล Sarima ดีกว่ารุ่น AriMA ที่เรียบง่ายเมื่อมีข้อมูลตามฤดูกาล IE ข้อมูล Timeseries มีรอบซ้ำเราสังเกตว่าโมเดลนั้นดีกว่ารุ่นก่อนหน้าใด ๆ
ด้านล่างคือผลลัพธ์และการวินิจฉัยของโมเดลเราเห็นว่าค่า R Square คือ 73% ซึ่งเป็นที่ยอมรับและข้อผิดพลาด RMS ลดลงเป็น 1715 จาก 5,000 ซึ่งเป็นสัญญาณที่ดี
ตอนนี้เราใช้ชุดข้อมูลอื่น ๆ (ชุดข้อมูลตลาดอินเดีย) เพื่อลองและค้นหาแนวโน้มที่น่าสนใจในความผันผวนของราคาอย่างน่าสนใจสำหรับปีที่ผ่านมาราคาทองคำสูงสุดในช่วงฤดูแต่งงานที่สอดคล้องกับปีนั้น นอกจากนี้เรายังสามารถเห็นแนวโน้มของวงจรในราคามี 6-8 ปีของการเติบโตที่รั้นตามด้วยตลาดหมี 6-8 ปี นอกเหนือจากนั้นไม่มีแนวโน้มที่ชัดเจนในข้อมูล ราคาสูงสุดคือเดือนมีนาคม-เมษายนหรือกันยายน-กันยายนซึ่งตกอยู่ในช่วงหรือก่อนฤดูแต่งงาน
ตอนนี้เรามีแบบจำลองที่สามารถทำนายราคาทองคำได้ด้วยความแม่นยำเกือบ 73% และพบความสัมพันธ์ที่น่าสนใจระหว่างราคาตลาดทองคำและฤดูแต่งงานในอินเดีย
เราสามารถสรุปได้อย่างปลอดภัยว่าราคาทองคำในตลาดโลกและตลาดอินเดียในภูมิภาคมีความผันผวนมากและขึ้นอยู่กับปัจจัยภายนอกมากมายซึ่งไม่สามารถสร้างแบบจำลองได้อย่างง่ายดาย
สำหรับการทำงานในอนาคตเราสามารถใช้และสร้างแบบจำลองที่มีอยู่ของเราเพื่อสร้างระบบคำแนะนำแนะนำผู้ใช้เวลาที่เหมาะสมในการซื้อและขายทองคำสำหรับผู้ที่สนใจลงทุนในทองคำ