التضمين
التضمين على الرافعة
يعد تفويض البيانات المفقود (المعروف أيضًا باسم إكمال المصفوفة) علمًا صعبًا للغاية يحاول ملء القيم المفقودة لمجموعة البيانات بأفضل تخمين. في الآونة الأخيرة ، تم تعميمها من قبل Netflix Challenge ، حيث تم تقديم مصفوفة من مستخدمي Netflix وتصنيفات الأفلام الخاصة بهم إلى مجتمع علوم البيانات لمعرفة ما إذا كان يمكن تطوير الخوارزميات للتنبؤ بكيفية قيام المستخدم بتقييم فيلم معين لم يكن للمستخدم بعد ذلك بعد مرئي.
مراجع:
- طرق تقدير القيمة المفقودة للمصفوفات الدقيقة للحمض النووي. Troyanskaya ، وآخرون.
- خوارزمية عتبة القيمة الفردية لإنجاز المصفوفة. CAI ، الشوعاء ، شين.
## خوارزميات التضمين المقدمة
- يعني التضمين
- K-nearest الجيران
- SVD التضمين
- SVT التضمين
- عزز الأشجار التضمين
- المربعات الصغرى المرجحة محليا
## أبرز
- Meanimptute هي وسيلة جيدة لبدء أي مشكلة في البيانات المفقودة. إنها أسرع تقنية التضمين وفعلها بشكل جيد بشكل معقول
- في بعض الأحيان ، نريد تحديد القيم المفقودة وفرضها من خلال تركيب خط من خلال جيرانه. يمكن القيام بذلك عن طريق أخذ مجموعة من النقاط {y_t ، x_t} وتراجع y_t على الفهرس t. بالإضافة إلى ذلك ، يمكننا استخدام خط انحدار المربعات الصغرى المرجحة محليًا لتايلور أوزان نقاط البيانات التي يتم ملاحظتها بالقرب من النقاط المفقودة. يتم ذلك في lmimpute
- GBMIMPUTE هي تقنية لفرض البيانات المفقودة عند توفر كل من البيانات الفئوية والرقمية. يستخدم أشجار القرار المعززة ، والتي تتطلب الكثير من البيانات من أجل العمل بشكل جيد. لديها ميزة على الرغم من تقسيم البيانات ، ثم تركيب وسائل مختلفة على الأقسام
- Tsimpute هي تقنية لفرض بيانات السلاسل الزمنية. هناك ثلاثة مكونات مهمة في أي مشكلة زمنية: الوقت ، والأبعاد ، والمقاييس. الأبعاد هي المتغيرات الفئوية التي تصف نقاط البيانات ، والمقاييس هي بيانات السلسلة الزمنية الفعلية. يقوم Tsimpute بتسجيل المتغير الزمني باستخدام TimeProjection ، ثم يفرض المقاييس باستخدام الأشجار المعززة مرة أخرى. تساعد الإسقاطات الزمنية على زيادة تقسيم نقاط البيانات ، على سبيل المثال تحديد المقاطع الليلية مقابل يوم الأسبوع ، وشرائح نهاية الأسبوع ، وما إلى ذلك.
- knn و svd remute هي طرق التضمين الكلاسيكية الموصوفة في Troyanskaya. يجد SVD تقريبًا رتبة K للبيانات ، والتي يمكن أن تكون مناسبة للبيانات الصاخبة. KNN جيد فقط عندما يكون عدد الميزات صغيرة
- SVT هي خوارزمية التضمين الشائعة مؤخرًا والتي تعمل بشكل جيد مع البيانات الرقمية. ومع ذلك ، فهي أبطأ خوارزمية مقدمة هنا ، تتطلب حساب العديد من SVDs. يمكن استخدام svtapproximpute كتقدير ، ما عليك سوى حساب SVD مرة واحدة ، مع عتبة القيم الفردية في Lambda ، ثم ضرب التحلل مرة أخرى للحصول على التضمين
## تصميم الخوارزمية
تتضمن كل وظيفة في هذه الحزمة خوارزمية التضمين بالإضافة إلى خوارزمية Cross Validatiion. تزيل خوارزمية السيرة الذاتية بشكل مصطنع 1/3 من البيانات في مجموعة البيانات ، وتدير وظيفة التضمين. باستخدام البيانات المكتملة ، يتم حساب RMSE على جزء من البيانات التي تمت إزالتها بشكل مصطنع فقط. ستعمل خوارزميات التضمين المختلفة بشكل مختلف على مجموعات البيانات المختلفة ، لذلك من المهم أن يكون لديك هذه الوظائف للمقارنة.