帰属
クランに代入
不足しているデータの代入(マトリックス完了とも呼ばれます)は、最良の推測でデータセットの欠損値を記入しようとする非常に難しい科学です。最近、Netflixチャレンジによって普及しました。Netflixユーザーのマトリックスと映画の評価がデータサイエンスコミュニティに提示され、ユーザーがまだユーザーがまだ持っていない特定の映画をどのように評価するかを予測するためにアルゴリズムを開発できるかどうかを確認しました見た。
参考文献:
- DNAマイクロアレイの値推定方法を欠いています。 Troyanskaya他
- マトリックス完了のための特異な値のしきい値アルゴリズム。 cai、candes、shen。
##提示された代入アルゴリズム
- 平均代入
- k-nearest Neighbors
- SVD代入
- SVT代入
- ブーストされた木の帰属
- 局所重みの最小二乗
##ハイライト
- MeanImputeは、欠落しているデータの問題を開始する良い方法です。それは最速の帰属技術であり、合理的にうまく機能します
- 時には、欠損値を特定し、隣人に線を取り付けることでそれらを誘発したいと思うことがあります。これは、ポイントのセット{y_t、x_t}を取得し、インデックスtでy_tを回帰することで実行できます。さらに、局所重み付けされた最小二乗回帰ラインを使用して、欠落しているものの近くで観察されるデータポイントの重みをテイラーに使用できます。これはlmimputeで行われます
- GBMimputeは、カテゴリデータと数値データの両方が利用可能な場合、欠落データを付与する手法です。ブーストされた決定ツリーを使用します。これは、うまく機能するために多くのデータが必要です。パーティションデータの利点があり、その後、パーティションにさまざまな手段を適合させることができます
- Tsimputeは、時系列のデータを帰属させる手法です。時系列の問題には、時間、寸法、メトリックの3つの重要なコンポーネントがあります。寸法は、データポイントを説明するカテゴリ変数であり、メトリックは実際の時系列データです。 Tsimputeは、時計を使用して時間変数を投影し、Boosted Treesを使用してメトリックを再度依存させます。時間の予測は、たとえば昼と夜のセグメント、平日と週末のセグメントなどを識別するなど、データポイントをさらにセグメント化するのに役立ちます。
- KNNとSVDインポートは、Troyanskayaに記載されている古典的な帰属方法です。 SVDは、データの低いランクK近似を見つけます。これは、ノイズの多いデータに適しています。 knnは、機能の数が小さい場合にのみ良いです
- SVTは、最近普及した代入アルゴリズムであり、数値データで非常にうまく機能します。ただし、ここで提示される最も遅いアルゴリズムであり、多くのSVDの計算が必要です。 svtapproximputeは推定として使用でき、SVDを一度計算し、ラムダの特異値をしきい値にし、再び分解を掛けて代入を取得することができます
##アルゴリズム設計
このパッケージの各関数には、代入アルゴリズムとCross validatiionアルゴリズムが含まれます。 CVアルゴリズムは、データセット内のデータの1/3を人為的に排除し、代入関数を実行します。完成したデータを使用して、RMSEは、人為的に削除されたデータの部分で計算されます。異なる代入アルゴリズムは、異なるデータセットで異なって実行されるため、比較のためにこれらの機能を持つことが重要です。