插補
克蘭歸因於
缺少數據插補(也稱為矩陣完成)是一門非常困難的科學,它試圖用最好的猜測來填充數據集的缺失值。最近,Netflix挑戰賽(Netflix Challenge)普及了,在該挑戰中,Netflix用戶及其電影評分的矩陣已呈現給數據科學界,以查看是否可以開發算法,以預測用戶如何對用戶尚未尚未尚未的某些電影進行評分。看到。
參考:
- DNA微陣列的缺少價值估計方法。 Troyanskaya等。
- 矩陣完成的單數值閾值算法。 CAI,糖果,神。
##提出的插入算法
- 平均插補
- k-near最鄰居
- SVD插補
- SVT歸納
- 促進樹的歸納
- 當地加權最小二乘
##亮點
- MeanImpute是啟動任何丟失數據問題的好方法。這是最快的插補技術,做得很好
- 有時,我們想通過通過其鄰居擬合一條線來識別缺失的值並將其歸為原樣。這可以通過取一組{y_t,x_t}並在索引t上回歸y_t來完成。此外,我們可以使用局部加權的最小二乘回歸線來將泰勒在缺失附近觀察到的數據點的權重。這是在lmimpute中完成的
- GBMIMPUTE是一種技術,可以在可用的分類數據和數值數據時將丟失的數據歸為數據。它使用增強的決策樹,這需要大量數據才能正常工作。它具有分區數據的優勢,然後將不同的手段擬合到分區
- tsimpute是一種估算時間序列數據的技術。任何時間序列問題都有三個重要組成部分:時間,維度和指標。尺寸是描述數據點的分類變量,指標是實際的時間序列數據。 tsImp用鐘錶投影將時間變量投影,然後再次使用增壓樹劃定指標。時間預測有助於進一步細分數據點,例如識別Day vs Night段,工作日與週末段等。
- KNN和SVD插入是Troyanskaya中描述的經典插補方法。 SVD發現數據的級別k近似較低,這可能適用於嘈雜的數據。 KNN僅在功能數量很小時才好
- SVT是一種最近普及的插入算法,在數字數據方面非常好。但是,它是此處介紹的最慢的算法,需要計算許多SVD。 Svtapproximpute可以用作估計值,只需計算一次SVD,在lambda處的單數值,然後再次乘以分解以獲取插補
##算法設計
此軟件包中的每個函數都包括插圖算法以及交叉驗證算法。 CV算法人為地消除了數據集中的1/3數據,並運行插補函數。使用完整的數據,RMSE是根據僅人為刪除的數據部分計算的。不同的歸合算法在不同的數據集上的性能會有所不同,因此具有這些功能以進行比較很重要。