imputation 다운로드 - imputation 소스 코드 다운로드

imputation

기타 소스코드

1.0.0

다운로드

돌리기

크랜에 대한 대치

결측 데이터 대치 (매트릭스 완료라고도 함)는 가장 어려운 과학입니다. 최근 Netflix 챌린지에 의해 대중화되었으며, Netflix 사용자의 매트릭스와 영화 등급이 데이터 과학 커뮤니티에 제시되어 알고리즘이 개발 될 수 있는지 확인하여 사용자가 아직 사용자가 아직하지 않은 특정 영화를 평가하는 방법을 예측했습니다. 본다.

참조 :

DNA 마이크로 어레이에 대한 결 측값 추정 방법. Troyanskaya, et al.
행렬 완료를위한 단일 값 임계 값 알고리즘. Cai, Candes, Shen.

## 대치 알고리즘이 제시되었습니다

평균 대치
K-Nearest 이웃
SVD 대치
SVT 대치
부스트 된 나무의 대치
국부적으로 가중 최소 제곱

##하이라이트

Meanimpute는 누락 된 데이터 문제를 시작하는 좋은 방법입니다. 가장 빠른 대치 기술이며 합리적으로 잘합니다
때때로, 우리는 결 측값을 식별하고 이웃을 통해 라인을 장착함으로써이를 충돌하고 싶습니다. 이것은 {y_t, x_t} 세트를 가져 와서 인덱스 t에서 y_t를 회귀하여 수행 할 수 있습니다. 또한, 우리는 로컬로 가중 최소 제곱 회귀선을 사용하여 누락 된 데이터 포인트 근처에서 관찰되는 데이터 포인트의 가중치를 테일러에 사용할 수 있습니다. 이것은 lmimpute에서 이루어집니다
GBMimpute는 범주 형 및 수치 데이터를 모두 사용할 수있을 때 누락 데이터를 부과하는 기술입니다. 부스트 된 의사 결정 트리를 사용하여 잘 작동하기 위해서는 많은 데이터가 필요합니다. 데이터를 분할 한 다음 파티션에 다른 수단을 맞추는 이점이 있습니다.
Tsimpute는 시계열 데이터를 부과하는 기술입니다. 시계열 문제에는 시간, 치수 및 메트릭의 세 가지 중요한 구성 요소가 있습니다. 차원은 데이터 포인트를 설명하는 범주 형 변수이며 메트릭은 실제 시계열 데이터입니다. Tsimpute는 Timeprojection을 사용하여 시간 변수를 투사 한 다음 부스트 트리를 다시 사용하여 메트릭을 부과합니다. 시간 예측은 데이터 포인트를 추가로 분할하는 데 도움이됩니다 (예 : 낮 vs 야간 세그먼트, 주중 vs 주말 세그먼트 등).
KNN과 SVD 부정은 트로이 안스카야에서 설명 된 고전적인 대치 방법입니다. SVD는 데이터에 대한 낮은 순위 k 근사치를 발견하여 시끄러운 데이터에 적합 할 수 있습니다. KNN은 기능의 수가 적을 때만 좋습니다.
SVT는 숫자 데이터와 매우 잘 어울리는 최근 대중의 대치 알고리즘입니다. 그러나 여기에 제시된 가장 느린 알고리즘이므로 많은 SVD의 계산이 필요합니다. SVTPACTOXIMPUTE는 추정치로 사용하여 SVD를 한 번 계산하고 Lambda에서 단일 값을 임계 한 다음 분해를 다시 곱하여 대치를받습니다.

## 알고리즘 설계

이 패키지의 각 기능에는 대치 알고리즘과 교차 Validaiion 알고리즘이 포함됩니다. CV 알고리즘은 데이터 세트에서 데이터의 1/3을 인위적으로 제거하고 대치 기능을 실행합니다. 완성 된 데이터를 사용하여 RMSE는 인위적으로 만 제거 된 데이터 부분에서 계산됩니다. 다른 대치 알고리즘은 다른 데이터 세트마다 다르게 수행되므로 이러한 기능을 비교하기 위해 사용하는 것이 중요합니다.

확장하다

추가 정보