imputation
Imputation sur Cran
L'imputation de données manquante (également connue sous le nom de matrice d'achèvement) est une science extrêmement difficile qui essaie de remplir les valeurs manquantes d'un ensemble de données avec la meilleure supposition. Récemment, il a été popularisé par le Netflix Challenge, où une matrice d'utilisateurs de Netflix et leurs cotes de film ont été présentées à la communauté des sciences des données pour voir si des algorithmes pouvaient être développés pour prédire comment un utilisateur évaluerait un certain film que l'utilisateur n'a pas encore vu.
Références:
- Méthodes d'estimation de la valeur manquante pour les puces à ADN. Troyanskaya, et al.
- Un algorithme de seuil de valeur singulière pour l'achèvement de la matrice. Cai, Candes, Shen.
## Algorithmes d'imputation présentés
- Imputation moyenne
- Voisins les plus chers
- Imputation SVD
- Imputation SVT
- Imputation des arbres stimulés
- Les moindres carrés pondérés localement
##Points forts
- MeanImpute est un bon moyen de démarrer tout problème de données manquant. C'est la technique d'imputation la plus rapide et se fait assez bien
- Parfois, nous voulons identifier les valeurs manquantes et les imputer en ajustant une ligne à travers ses voisins. Cela peut être fait en prenant un ensemble de points {y_t, x_t} et en régressant y_t sur l'index t. De plus, nous pouvons utiliser une ligne de régression des moindres pondérés localement pour Taylor les poids des points de données observés près des manquants. Cela se fait dans lmimpute
- GBMimpute est une technique pour imputer des données manquantes lorsque des données catégorielles et numériques sont disponibles. Il utilise des arbres de décision boostés, ce qui nécessite beaucoup de données pour bien fonctionner. Il a l'avantage cependant de partitionner les données, puis ajusté des moyens différents pour les partitions
- Tsimpute est une technique pour imputer des données de séries chronologiques. Il y a trois composants importants à tout problème de série chronologique: le temps, les dimensions et les mesures. Les dimensions sont des variables catégorielles décrivant les points de données, et les métriques sont les données réelles des séries chronologiques. Tsimpute projette la variable temporelle à l'aide de la période de time, puis implique les métriques à nouveau à nouveau des arbres augmentés. Les projections de temps aident à segmenter davantage les points de données, par exemple l'identification des segments de nuit par rapport aux segments de nuit, en semaine vs le week-end, etc.
- KNN et SVD Impute sont des méthodes d'imputation classiques décrites dans Troyanskaya. Le SVD trouve une approximation de bas rang K aux données, qui peuvent convenir aux données bruyantes. KNN n'est bon que lorsque le nombre de fonctionnalités est petit
- SVT est un algorithme d'imputation récemment popularisé qui fait très bien avec les données numériques. C'est cependant l'algorithme le plus lent présenté ici, nécessitant le calcul de nombreux SVD. SVTApproximum peut être utilisé comme estimation, calculant simplement le SVD une fois, seuilant les valeurs singulières à Lambda, puis multipliant à nouveau la décomposition pour obtenir l'imputation
## conception d'algorithme
Chaque fonction de ce package comprend l'algorithme d'imputation ainsi qu'un algorithme croisé de validatiion. L'algorithme CV élimine artificiellement 1/3 des données dans un ensemble de données et exécute la fonction d'imputation. En utilisant les données terminées, le RMSE est calculé sur la partie des données qui ont été supprimées artificiellement uniquement. Différents algorithmes d'imputation fonctionneront différemment sur différents ensembles de données, il est donc important d'avoir ces fonctions de comparaison.