Téléchargement imputation - Téléchargement du code source imputation

imputation

Autre code source

1.0.0

Télécharger

imputation

Imputation sur Cran

L'imputation de données manquante (également connue sous le nom de matrice d'achèvement) est une science extrêmement difficile qui essaie de remplir les valeurs manquantes d'un ensemble de données avec la meilleure supposition. Récemment, il a été popularisé par le Netflix Challenge, où une matrice d'utilisateurs de Netflix et leurs cotes de film ont été présentées à la communauté des sciences des données pour voir si des algorithmes pouvaient être développés pour prédire comment un utilisateur évaluerait un certain film que l'utilisateur n'a pas encore vu.

Références:

Méthodes d'estimation de la valeur manquante pour les puces à ADN. Troyanskaya, et al.
Un algorithme de seuil de valeur singulière pour l'achèvement de la matrice. Cai, Candes, Shen.

## Algorithmes d'imputation présentés

Imputation moyenne
Voisins les plus chers
Imputation SVD
Imputation SVT
Imputation des arbres stimulés
Les moindres carrés pondérés localement

##Points forts

MeanImpute est un bon moyen de démarrer tout problème de données manquant. C'est la technique d'imputation la plus rapide et se fait assez bien
Parfois, nous voulons identifier les valeurs manquantes et les imputer en ajustant une ligne à travers ses voisins. Cela peut être fait en prenant un ensemble de points {y_t, x_t} et en régressant y_t sur l'index t. De plus, nous pouvons utiliser une ligne de régression des moindres pondérés localement pour Taylor les poids des points de données observés près des manquants. Cela se fait dans lmimpute
GBMimpute est une technique pour imputer des données manquantes lorsque des données catégorielles et numériques sont disponibles. Il utilise des arbres de décision boostés, ce qui nécessite beaucoup de données pour bien fonctionner. Il a l'avantage cependant de partitionner les données, puis ajusté des moyens différents pour les partitions
Tsimpute est une technique pour imputer des données de séries chronologiques. Il y a trois composants importants à tout problème de série chronologique: le temps, les dimensions et les mesures. Les dimensions sont des variables catégorielles décrivant les points de données, et les métriques sont les données réelles des séries chronologiques. Tsimpute projette la variable temporelle à l'aide de la période de time, puis implique les métriques à nouveau à nouveau des arbres augmentés. Les projections de temps aident à segmenter davantage les points de données, par exemple l'identification des segments de nuit par rapport aux segments de nuit, en semaine vs le week-end, etc.
KNN et SVD Impute sont des méthodes d'imputation classiques décrites dans Troyanskaya. Le SVD trouve une approximation de bas rang K aux données, qui peuvent convenir aux données bruyantes. KNN n'est bon que lorsque le nombre de fonctionnalités est petit
SVT est un algorithme d'imputation récemment popularisé qui fait très bien avec les données numériques. C'est cependant l'algorithme le plus lent présenté ici, nécessitant le calcul de nombreux SVD. SVTApproximum peut être utilisé comme estimation, calculant simplement le SVD une fois, seuilant les valeurs singulières à Lambda, puis multipliant à nouveau la décomposition pour obtenir l'imputation

## conception d'algorithme

Chaque fonction de ce package comprend l'algorithme d'imputation ainsi qu'un algorithme croisé de validatiion. L'algorithme CV élimine artificiellement 1/3 des données dans un ensemble de données et exécute la fonction d'imputation. En utilisant les données terminées, le RMSE est calculé sur la partie des données qui ont été supprimées artificiellement uniquement. Différents algorithmes d'imputation fonctionneront différemment sur différents ensembles de données, il est donc important d'avoir ces fonctions de comparaison.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-02-08
taille 27.22KB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
chat.petals.dev

2024-11-30
SmartTube

2024-12-14
viptools for eslam

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
Sunamu

Autre code source

Release 2.2.0
MySchedule.py

Autre code source

Updates to the fetching of week codes
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout