tuduhan
Imputasi pada cran
Imputasi data yang hilang (juga dikenal sebagai penyelesaian matriks) adalah ilmu yang sangat sulit yang mencoba mengisi nilai -nilai yang hilang dari dataset dengan tebakan terbaik. Baru -baru ini, itu dipopulerkan oleh Netflix Challenge, di mana matriks pengguna Netflix dan peringkat film mereka disajikan kepada komunitas sains data untuk melihat apakah algoritma dapat dikembangkan untuk memprediksi bagaimana pengguna akan menilai film tertentu yang belum dimiliki pengguna yang belum dimiliki pengguna tersebut. terlihat.
Referensi:
- Metode estimasi nilai yang hilang untuk microarray DNA. Troyanskaya, dkk.
- Algoritma ambang batas nilai tunggal untuk penyelesaian matriks. Cai, Candes, Shen.
## Algoritma Imputasi Disajikan
- Berarti imputasi
- tetangga k-nearest
- Imputasi SVD
- Imputasi SVT
- Imputasi pohon yang didorong
- Kotak terkecil tertimbang secara lokal
##Highlight
- MeanImpute adalah cara yang baik untuk memulai masalah data yang hilang. Itu adalah teknik imputasi tercepat dan cukup baik
- Terkadang, kami ingin mengidentifikasi nilai -nilai yang hilang dan menyalahkan mereka dengan memasang garis melalui tetangganya. Ini dapat dilakukan dengan mengambil satu set poin {y_t, x_t} dan mundur Y_T pada indeks t. Selain itu, kita dapat menggunakan garis regresi kuadrat terkecil lokal untuk taylor bobot titik data yang diamati di dekat yang hilang. Ini dilakukan dalam lMimpute
- GBMimpute adalah teknik untuk menyalahkan data yang hilang ketika data kategorikal dan numerik tersedia. Ini menggunakan pohon keputusan yang ditingkatkan, yang membutuhkan banyak data agar dapat bekerja dengan baik. Ini memiliki keunggulan untuk mempartisi data, dan kemudian memasang cara yang berbeda untuk partisi
- TSimpute adalah teknik untuk menyalahkan data deret waktu. Ada tiga komponen penting untuk masalah deret waktu: waktu, dimensi, dan metrik. Dimensi adalah variabel kategori yang menggambarkan titik data, dan metrik adalah data deret waktu aktual. TSimpute memproyeksikan variabel waktu menggunakan timeProection, dan kemudian menyalahkan metrik menggunakan pohon yang didorong lagi. Proyeksi waktu membantu untuk lebih lanjut segmen titik data, misalnya mengidentifikasi segmen hari vs malam, segmen hari kerja vs akhir pekan, dll.
- Knn dan SVD Impute adalah metode imputasi klasik yang dijelaskan dalam Troyanskaya. SVD menemukan perkiraan K peringkat rendah untuk data, yang dapat cocok untuk data yang berisik. Knn hanya bagus saat jumlah fiturnya kecil
- SVT adalah algoritma imputasi yang baru -baru ini dipopulerkan yang sangat baik dengan data numerik. Namun itu adalah algoritma paling lambat yang disajikan di sini, membutuhkan perhitungan banyak SVD. SVTapproximpute dapat digunakan sebagai perkiraan, hanya menghitung SVD sekali, mengorbankan nilai -nilai tunggal di lambda, kemudian mengalikan dekomposisi lagi untuk mendapatkan imputasi
Desain algoritma ##
Setiap fungsi dalam paket ini mencakup algoritma imputasi serta algoritma validasi silang. Algoritma CV secara artifisial menghilangkan 1/3 dari data dalam dataset, dan menjalankan fungsi imputasi. Menggunakan data yang sudah selesai, RMSE dihitung pada bagian data yang hanya dihapus secara artifisial. Algoritma imputasi yang berbeda akan berkinerja berbeda pada dataset yang berbeda, sehingga penting untuk memiliki fungsi -fungsi ini untuk perbandingan.