Скачать imputation - загрузка исходного кода imputation

imputation

Другой исходный код

1.0.0

Скачать

вменение

вменение на Cran

Отсутствующее вменение данных (также известное как завершение матрицы) - это чрезвычайно сложная наука, которая пытается заполнить недостающие значения набора данных с лучшим предположением. Недавно это было популяризировано Netflix Challenge, где матрица пользователей Netflix и их рейтинги фильмов были представлены сообществу науки о данных, чтобы увидеть, можно ли разработать алгоритмы, чтобы предсказать, как пользователь оценит определенный фильм, которого пользователь еще не имеет видимый.

Ссылки:

Методы оценки отсутствующего значения для микрочипов ДНК. Troyanskaya, et al.
Алгоритм порогового значения единственного значения для завершения матрицы. Cai, Candes, Shen.

## представлены алгоритмы вменения

Среднее вменение
К-ближайшие соседи
SVD вменение
SVT вменение
Увеличенное вменение деревьев
Местный взвешенные наименьшие квадраты

##Основные моменты

MeanImpute - хороший способ начать любую проблему отсутствующих данных. Это самая быстрая техника вменения и делает достаточно хорошо
Иногда мы хотим идентифицировать недостающие значения и вменять их, проведя линию через соседей. Это можно сделать, взяв набор точек {y_t, x_t} и регрессируя y_t в индексе t. Кроме того, мы можем использовать локально взвешенную линию регрессии наименьших квадратов, чтобы Тейлор веса точек данных, которые наблюдаются вблизи пропущенных. Это делается в lmimpute
GBMimpute - это метод для вменения отсутствующими данными, когда доступны как категориальные, так и численные данные. Он использует усиленные деревья решений, которые требуют много данных для работы хорошо. У него есть преимущество, хотя и разделение данных, а затем подготовить различные средства для разделов.
Tsimpute - это метод для вменения данных временных рядов. Существует три значительных компонента в любой задаче временных рядов: время, размеры и метрики. Размеры - это категориальные переменные, описывающие точки данных, а метрики - это фактические данные временных рядов. Tsimpute проецирует временную переменную с использованием временной промежутки времени, а затем снова вносит метрики, используя повышенные деревья. Прогнозы времени помогают дальнейшему сегментированию точек данных, например, выявление дневных сегментов, сегментов в буд против выходных и т. Д.
КНН и SVD Impute - это методы классического вменения, описанные в Тройанской. SVD находит низкое приближение K к данным, которое может подходить для шумных данных. KNN хорош только тогда, когда количество функций маленькое
SVT - это недавно популяризированный алгоритм вменения, который очень хорошо справляется с числовыми данными. Однако это самый медленный алгоритм, представленный здесь, требующий вычисления многих SVD. SvtapproxImpute может использоваться в качестве оценки, просто вычисляя SVD один раз, порождая значения единственного числа в лямбде, а затем снова умножение разложения, чтобы получить вменение

## Алгоритм дизайн

Каждая функция в этом пакете включает в себя алгоритм вменения, а также алгоритм перекрестного валидации. Алгоритм CV искусственно устраняет 1/3 данных в наборе данных и выполняет функцию вменения. Используя заполненные данные, RMSE рассчитывается только на части данных, которые были искусственно удалены. Различные алгоритмы вменения будут работать по -разному в разных наборах данных, поэтому важно иметь эти функции для сравнения.

Расширять

Дополнительная информация