돌리기
크랜에 대한 대치
결측 데이터 대치 (매트릭스 완료라고도 함)는 가장 어려운 과학입니다. 최근 Netflix 챌린지에 의해 대중화되었으며, Netflix 사용자의 매트릭스와 영화 등급이 데이터 과학 커뮤니티에 제시되어 알고리즘이 개발 될 수 있는지 확인하여 사용자가 아직 사용자가 아직하지 않은 특정 영화를 평가하는 방법을 예측했습니다. 본다.
참조 :
- DNA 마이크로 어레이에 대한 결 측값 추정 방법. Troyanskaya, et al.
- 행렬 완료를위한 단일 값 임계 값 알고리즘. Cai, Candes, Shen.
## 대치 알고리즘이 제시되었습니다
- 평균 대치
- K-Nearest 이웃
- SVD 대치
- SVT 대치
- 부스트 된 나무의 대치
- 국부적으로 가중 최소 제곱
##하이라이트
- Meanimpute는 누락 된 데이터 문제를 시작하는 좋은 방법입니다. 가장 빠른 대치 기술이며 합리적으로 잘합니다
- 때때로, 우리는 결 측값을 식별하고 이웃을 통해 라인을 장착함으로써이를 충돌하고 싶습니다. 이것은 {y_t, x_t} 세트를 가져 와서 인덱스 t에서 y_t를 회귀하여 수행 할 수 있습니다. 또한, 우리는 로컬로 가중 최소 제곱 회귀선을 사용하여 누락 된 데이터 포인트 근처에서 관찰되는 데이터 포인트의 가중치를 테일러에 사용할 수 있습니다. 이것은 lmimpute에서 이루어집니다
- GBMimpute는 범주 형 및 수치 데이터를 모두 사용할 수있을 때 누락 데이터를 부과하는 기술입니다. 부스트 된 의사 결정 트리를 사용하여 잘 작동하기 위해서는 많은 데이터가 필요합니다. 데이터를 분할 한 다음 파티션에 다른 수단을 맞추는 이점이 있습니다.
- Tsimpute는 시계열 데이터를 부과하는 기술입니다. 시계열 문제에는 시간, 치수 및 메트릭의 세 가지 중요한 구성 요소가 있습니다. 차원은 데이터 포인트를 설명하는 범주 형 변수이며 메트릭은 실제 시계열 데이터입니다. Tsimpute는 Timeprojection을 사용하여 시간 변수를 투사 한 다음 부스트 트리를 다시 사용하여 메트릭을 부과합니다. 시간 예측은 데이터 포인트를 추가로 분할하는 데 도움이됩니다 (예 : 낮 vs 야간 세그먼트, 주중 vs 주말 세그먼트 등).
- KNN과 SVD 부정은 트로이 안스카야에서 설명 된 고전적인 대치 방법입니다. SVD는 데이터에 대한 낮은 순위 k 근사치를 발견하여 시끄러운 데이터에 적합 할 수 있습니다. KNN은 기능의 수가 적을 때만 좋습니다.
- SVT는 숫자 데이터와 매우 잘 어울리는 최근 대중의 대치 알고리즘입니다. 그러나 여기에 제시된 가장 느린 알고리즘이므로 많은 SVD의 계산이 필요합니다. SVTPACTOXIMPUTE는 추정치로 사용하여 SVD를 한 번 계산하고 Lambda에서 단일 값을 임계 한 다음 분해를 다시 곱하여 대치를받습니다.
## 알고리즘 설계
이 패키지의 각 기능에는 대치 알고리즘과 교차 Validaiion 알고리즘이 포함됩니다. CV 알고리즘은 데이터 세트에서 데이터의 1/3을 인위적으로 제거하고 대치 기능을 실행합니다. 완성 된 데이터를 사용하여 RMSE는 인위적으로 만 제거 된 데이터 부분에서 계산됩니다. 다른 대치 알고리즘은 다른 데이터 세트마다 다르게 수행되므로 이러한 기능을 비교하기 위해 사용하는 것이 중요합니다.