การใส่
การใส่ขังใน CRAN
การใส่ข้อมูลที่ขาดหายไป (หรือที่เรียกว่าเมทริกซ์เสร็จสมบูรณ์) เป็นวิทยาศาสตร์ที่ยากมากที่พยายามเติมค่าที่ขาดหายไปของชุดข้อมูลด้วยการเดาที่ดีที่สุด เมื่อเร็ว ๆ นี้มันได้รับความนิยมจาก Netflix Challenge ซึ่งเมทริกซ์ของผู้ใช้ Netflix และการจัดอันดับภาพยนตร์ของพวกเขาถูกนำเสนอต่อชุมชนวิทยาศาสตร์ข้อมูลเพื่อดูว่าอัลกอริทึมสามารถพัฒนาเพื่อทำนายว่าผู้ใช้จะให้คะแนนภาพยนตร์บางเรื่องที่ผู้ใช้ยังไม่ได้ เห็น.
ข้อมูลอ้างอิง:
- วิธีการประมาณค่าที่ขาดหายไปสำหรับ DNA microarrays Troyanskaya และคณะ
- อัลกอริทึมการกำหนดค่าเอกพจน์สำหรับเมทริกซ์เสร็จสมบูรณ์ Cai, Candes, Shen
## นำเสนออัลกอริทึม
- หมายถึงการใส่ร้าย
- เพื่อนบ้าน k-nearest
- การใส่ SVD
- การใส่ SVT
- เพิ่มการใส่ต้นไม้
- กำลังสองอย่างน้อยที่สุด
## ไฮไลท์
- Meanimpute เป็นวิธีที่ดีในการเริ่มต้นปัญหาข้อมูลที่ขาดหายไป มันเป็นเทคนิคการใส่ร้ายที่เร็วที่สุดและทำได้ดีพอสมควร
- บางครั้งเราต้องการระบุค่าที่ขาดหายไปและกำหนดค่าโดยการปรับเส้นผ่านเพื่อนบ้าน สิ่งนี้สามารถทำได้โดยการใช้ชุดของคะแนน {y_t, x_t} และ regressing y_t บนดัชนี t นอกจากนี้เราสามารถใช้สายการถดถอยกำลังสองน้อยที่สุดที่ถ่วงน้ำหนักในพื้นที่เพื่อเทย์เลอร์น้ำหนักของจุดข้อมูลที่สังเกตได้ใกล้กับที่หายไป สิ่งนี้ทำใน lmimpute
- GBMimpute เป็นเทคนิคในการระบุข้อมูลที่ขาดหายไปเมื่อมีข้อมูลเชิงหมวดหมู่และตัวเลข มันใช้ต้นไม้ตัดสินใจที่เพิ่มขึ้นซึ่งต้องใช้ข้อมูลจำนวนมากเพื่อให้ทำงานได้ดี มันมีข้อได้เปรียบแม้ว่าการแบ่งพาร์ติชันข้อมูลและจากนั้นปรับวิธีที่แตกต่างกับพาร์ติชันที่แตกต่างกัน
- Tsimpute เป็นเทคนิคในการกำหนดข้อมูลอนุกรมเวลา มีสามองค์ประกอบที่สำคัญสำหรับปัญหาอนุกรมเวลา: เวลาขนาดและตัวชี้วัด ขนาดเป็นตัวแปรหมวดหมู่ที่อธิบายจุดข้อมูลและตัวชี้วัดเป็นข้อมูลอนุกรมเวลาจริง Tsimpute คาดการณ์ตัวแปรเวลาโดยใช้ timeproject จากนั้น imputes ตัวชี้วัดโดยใช้ต้นไม้ที่เพิ่มขึ้นอีกครั้ง การคาดการณ์เวลาช่วยในการแบ่งกลุ่มข้อมูลเพิ่มเติมเช่นการระบุเซ็กเมนต์วันกับคืนวันธรรมดาและวันหยุดสุดสัปดาห์ ฯลฯ
- KNN และ SVD impute เป็นวิธีการใส่ความคลาสสิกที่อธิบายไว้ใน Troyanskaya SVD พบการประมาณ K ต่ำสุดของข้อมูลซึ่งเหมาะสำหรับข้อมูลที่มีเสียงดัง KNN นั้นดีเฉพาะเมื่อจำนวนคุณสมบัติมีขนาดเล็ก
- SVT เป็นอัลกอริทึมการใส่ที่เป็นที่นิยมเมื่อเร็ว ๆ นี้ซึ่งทำได้ดีมากกับข้อมูลตัวเลข อย่างไรก็ตามมันเป็นอัลกอริทึมที่ช้าที่สุดที่นำเสนอที่นี่ซึ่งต้องการการคำนวณ SVD จำนวนมาก SVTApproximpute สามารถใช้เป็นค่าประมาณได้เพียงแค่คำนวณ SVD หนึ่งครั้งการกำหนดค่าเอกพจน์ที่แลมบ์ดาจากนั้นคูณการสลายตัวอีกครั้งเพื่อให้ได้การใส่ร้าย
## การออกแบบอัลกอริทึม
แต่ละฟังก์ชั่นในแพ็คเกจนี้รวมถึงอัลกอริทึมการใส่ข้อมูลรวมถึงอัลกอริทึม Cross Validatiion อัลกอริทึม CV จะกำจัดข้อมูล 1/3 ของข้อมูลในชุดข้อมูลและเรียกใช้ฟังก์ชันการใส่ข้อมูล การใช้ข้อมูลที่เสร็จสมบูรณ์ RMSE จะถูกคำนวณในส่วนของข้อมูลที่ถูกลบออกเทียมเท่านั้น อัลกอริทึมการใส่ความแตกต่างกันจะทำงานแตกต่างกันในชุดข้อมูลที่แตกต่างกันดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องมีฟังก์ชั่นเหล่านี้สำหรับการเปรียบเทียบ