вменение
вменение на Cran
Отсутствующее вменение данных (также известное как завершение матрицы) - это чрезвычайно сложная наука, которая пытается заполнить недостающие значения набора данных с лучшим предположением. Недавно это было популяризировано Netflix Challenge, где матрица пользователей Netflix и их рейтинги фильмов были представлены сообществу науки о данных, чтобы увидеть, можно ли разработать алгоритмы, чтобы предсказать, как пользователь оценит определенный фильм, которого пользователь еще не имеет видимый.
Ссылки:
- Методы оценки отсутствующего значения для микрочипов ДНК. Troyanskaya, et al.
- Алгоритм порогового значения единственного значения для завершения матрицы. Cai, Candes, Shen.
## представлены алгоритмы вменения
- Среднее вменение
- К-ближайшие соседи
- SVD вменение
- SVT вменение
- Увеличенное вменение деревьев
- Местный взвешенные наименьшие квадраты
##Основные моменты
- MeanImpute - хороший способ начать любую проблему отсутствующих данных. Это самая быстрая техника вменения и делает достаточно хорошо
- Иногда мы хотим идентифицировать недостающие значения и вменять их, проведя линию через соседей. Это можно сделать, взяв набор точек {y_t, x_t} и регрессируя y_t в индексе t. Кроме того, мы можем использовать локально взвешенную линию регрессии наименьших квадратов, чтобы Тейлор веса точек данных, которые наблюдаются вблизи пропущенных. Это делается в lmimpute
- GBMimpute - это метод для вменения отсутствующими данными, когда доступны как категориальные, так и численные данные. Он использует усиленные деревья решений, которые требуют много данных для работы хорошо. У него есть преимущество, хотя и разделение данных, а затем подготовить различные средства для разделов.
- Tsimpute - это метод для вменения данных временных рядов. Существует три значительных компонента в любой задаче временных рядов: время, размеры и метрики. Размеры - это категориальные переменные, описывающие точки данных, а метрики - это фактические данные временных рядов. Tsimpute проецирует временную переменную с использованием временной промежутки времени, а затем снова вносит метрики, используя повышенные деревья. Прогнозы времени помогают дальнейшему сегментированию точек данных, например, выявление дневных сегментов, сегментов в буд против выходных и т. Д.
- КНН и SVD Impute - это методы классического вменения, описанные в Тройанской. SVD находит низкое приближение K к данным, которое может подходить для шумных данных. KNN хорош только тогда, когда количество функций маленькое
- SVT - это недавно популяризированный алгоритм вменения, который очень хорошо справляется с числовыми данными. Однако это самый медленный алгоритм, представленный здесь, требующий вычисления многих SVD. SvtapproxImpute может использоваться в качестве оценки, просто вычисляя SVD один раз, порождая значения единственного числа в лямбде, а затем снова умножение разложения, чтобы получить вменение
## Алгоритм дизайн
Каждая функция в этом пакете включает в себя алгоритм вменения, а также алгоритм перекрестного валидации. Алгоритм CV искусственно устраняет 1/3 данных в наборе данных и выполняет функцию вменения. Используя заполненные данные, RMSE рассчитывается только на части данных, которые были искусственно удалены. Различные алгоритмы вменения будут работать по -разному в разных наборах данных, поэтому важно иметь эти функции для сравнения.