Imputation
Imputation auf Kran
Fehlende Datenimputation (auch als Matrix -Vervollständigung bezeichnet) ist eine äußerst schwierige Wissenschaft, die versucht, fehlende Werte eines Datensatzes mit der besten Vermutung auszufüllen. Vor kurzem wurde es von The Netflix Challenge populär gemacht, wo eine Matrix von Netflix -Benutzern und ihre Filmbewertungen der Data Science Community vorgestellt wurden, um zu sehen, ob Algorithmen entwickelt werden könnten, um vorherzusagen, wie ein Benutzer einen bestimmten Film bewerten würde, den der Benutzer noch nicht hat gesehen.
Referenzen:
- Fehlende Wertschätzungsmethoden für DNA -Microarrays. Troyanskaya et al.
- Ein singularer Schwellenwertalgorithmus für die Matrixabschluss. Cai, Candes, Shen.
## Imputationsalgorithmen präsentiert
- Mittlere Imputation
- K-nearste Nachbarn
- SVD -Imputation
- SVT -Imputation
- Erhöhte Bäume Imputation
- Lokal gewichtete kleinste Quadrate
## Highlights
- MeanImpute ist ein guter Weg, um fehlende Datenprobleme zu starten. Es ist die schnellste Imputationstechnik und macht einigermaßen gut
- Manchmal möchten wir fehlende Werte identifizieren und sie unterstellen, indem wir eine Linie durch ihre Nachbarn anpassen. Dies kann durch eine Reihe von Punkten {y_t, x_t} und Y_T auf dem Index t erfolgen. Darüber hinaus können wir eine lokal gewichtete Regressionslinie für die kleinsten Quadrate verwenden, um die Gewichte der Datenpunkte, die in der Nähe der fehlenden beobachtet werden, zu taylor. Dies geschieht in Lmimpute
- GBMIMPUTE ist eine Technik, um fehlende Daten zu unterstellen, wenn sowohl kategorische als auch numerische Daten verfügbar sind. Es verwendet gestärkte Entscheidungsbäume, für die viele Daten erforderlich sind, um gut zu funktionieren. Es hat den Vorteil, Daten zu verteilten und dann unterschiedliche Mittel an die Partitionen anzupassen
- TSIMPUTE ist eine Technik, um Zeitreihendaten zu lindern. Es gibt drei wichtige Komponenten für jedes Zeitreihenproblem: Zeit, Abmessungen und Metriken. Die Dimensionen sind kategoriale Variablen, die die Datenpunkte beschreiben, und Metriken sind die tatsächlichen Zeitreihendaten. TSIMPUTE projiziert die Zeitvariable mithilfe von TimeProjection und treibt dann die Metriken mithilfe von erhöhten Bäumen erneut auf. Die Zeitprojektionen helfen dazu, die Datenpunkte weiter zu segmentieren, z.
- KNN- und SVD -Impute sind klassische Imputationsmethoden, die in Troyanskaya beschrieben wurden. Die SVD findet eine Annäherung an K -K -K -Annäherung an die Daten, die für laute Daten geeignet sein kann. KNN ist nur gut, wenn die Anzahl der Funktionen klein ist
- SVT ist ein kürzlich populärer Imputationsalgorithmus, der sehr gut mit numerischen Daten passt. Es ist jedoch der langsamste Algorithmus, der hier präsentiert wird und die Berechnung vieler SVDs erfordert. SvtApploximpute kann als Schätzung verwendet werden, einfach einmal die SVD berechnen, die einzigartigen Werte bei Lambda durcheinander bringen und dann die Zerlegung erneut multiplizieren, um die Imputation zu erhalten
## Algorithmus Design
Jede Funktion in diesem Paket enthält den Imputationsalgorithmus sowie einen Cross -Validiion -Algorithmus. Der CV -Algorithmus eliminiert künstlich 1/3 der Daten in einem Datensatz und führt die Imputationsfunktion aus. Unter Verwendung der ausgefüllten Daten wird die RMSE auf dem Teil der Daten berechnet, die nur künstlich entfernt wurden. Unterschiedliche Imputationsalgorithmen werden in verschiedenen Datensätzen unterschiedlich abschneiden. Daher ist es wichtig, diese Funktionen zum Vergleich zu haben.