該項目是我的研究生模塊中稱為Applied Statistics的要求之一。該項目的主要目的是生成一個準確的模型,以根據功能預測航空公司的票價。該項目中使用的機器學習模型是簡單的線性回歸和多個線性回歸。此外,還執行使用自動Arima的時間,以預測2023年特定航空公司的價格。該項目的主要過程是進行探索性數據分析,數據預處理,Correaltion分析,模型培訓,時間訓練,時間分析,時間分析,分析,時間分析,時間流動和使用ADF的假設檢驗。
該項目使用R Studio IDE用R語言進行編碼。
該項目中使用的2個數據集位於“數據集”文件夾中。
可以在“ code.r”文件中查看完整代碼。
如果有人想使用代碼的一部分。請參考。謝謝。
該領域內的當前研究表明,可以使用一組特定功能來預測航空公司的票價,這些功能可以是有用的公司和遊客來推斷價格,何時是購買飛行票的最佳時機。隨著航班票的價格不時地付出了季節性價格,因此很難進行準確的預測。因此,現在主要的問題是可以根據與飛行本身有關的功能(例如飛行持續時間,停靠次數等)預測票價。
在相關分析期間,在平均價格和剩餘的幾天內購買票證的較強正相關性為0.92。這是建立的所有相關性中最強的。線性回歸分析發現,特徵“平均價格”和“ days_left”可以解釋“平均價格”變化的62.53%。此外,時間分析預測,2023年4月,噴氣式航空的票價為12431.34盧比。
總體而言,該項目的發現得出的結論是,這些功能可用於預測航空公司的票價。然而,可以考慮更多的功能,例如天氣狀況或使用數值變量更多地擴展數據集,以預測更準確的結果。
該項目涵蓋了從數據預處理到開發線性回歸模型的所有過程。該項目中發現的結果包括前面提到的所有統計問題。進行數據預處理以將數據轉換為適合線性回歸模型的合適標準。完成相關分析以識別哪些是強烈依賴彼此的變量,這些變量對線性回歸分析有益。基於相關分析,創建了線性回歸模型,以對航空公司飛行價格票進行預測。此外,進行了時間分析,以預測2023年噴氣航空航空公司的票價為12431.34盧比。最後,進行了使用增強Dickey Fuller(ADF)或單位根測試的假設檢驗,以確定時間表是否固定。
總體而言,提供的功能可以推斷出航空公司的價格票。但是,並非所有功能都被使用並且足夠強大以完成這項任務。因此,可以考慮更多因素,例如天氣狀況或使用更多的數值變量來擴展數據集,以預測更準確的結果。