Netflix เป็นเรื่องเกี่ยวกับการเชื่อมโยงผู้คนกับภาพยนตร์ที่พวกเขารัก เพื่อช่วยให้ลูกค้าค้นหาภาพยนตร์เหล่านั้นพวกเขาได้พัฒนาระบบคำแนะนำภาพยนตร์ระดับโลก: Cinematchsm หน้าที่ของมันคือการคาดการณ์ว่าจะมีใครบางคนเพลิดเพลินไปกับภาพยนตร์ตามจำนวนที่พวกเขาชอบหรือไม่ชอบภาพยนตร์เรื่องอื่น ๆ Netflix ใช้การคาดการณ์เหล่านั้นเพื่อให้คำแนะนำภาพยนตร์ส่วนตัวตามรสนิยมที่เป็นเอกลักษณ์ของลูกค้าแต่ละราย และในขณะที่ Cinematch ทำได้ค่อนข้างดี แต่ก็สามารถทำได้ดีขึ้นเสมอ
ขณะนี้มีวิธีการทางเลือกที่น่าสนใจมากมายเกี่ยวกับวิธีการทำงานของ Cinematch ที่ Netflix ไม่ได้ลอง บางคนอธิบายไว้ในวรรณคดีบางคนไม่ได้ เราอยากรู้ว่าสิ่งเหล่านี้สามารถเอาชนะ Cinematch ได้ด้วยการคาดการณ์ที่ดีขึ้นหรือไม่ เพราะตรงไปตรงมาหากมีวิธีที่ดีกว่ามากมันอาจสร้างความแตกต่างอย่างมากให้กับลูกค้าและธุรกิจของเรา
เครดิต: https://www.netflixprize.com/rules.html
#DataScience
#Netflix
#Recommendation System
#Ratings
#Movie PRediction
#Numpy-Pandas
Netflix ให้ข้อมูลการจัดอันดับที่ไม่ระบุชื่อจำนวนมากและแถบความแม่นยำในการทำนายที่ดีกว่าสิ่งที่ Cinematch สามารถทำได้ในชุดข้อมูลการฝึกอบรมเดียวกัน (ความแม่นยำคือการวัดว่าการจัดอันดับที่คาดการณ์ไว้อย่างใกล้ชิดของภาพยนตร์ตรงกับการจัดอันดับจริงที่ตามมา)
รับข้อมูลจาก: https://www.kaggle.com/netflix-inc/netflix-prize-data/data
ไฟล์ข้อมูล:
บรรทัดแรกของแต่ละไฟล์ [combined_data_1.txt, combined_data_2.txt, combined_data_3.txt, combined_data_4.txt] มีรหัสภาพยนตร์ตามด้วยลำไส้ใหญ่ แต่ละบรรทัดที่ตามมาในไฟล์สอดคล้องกับการให้คะแนนจากลูกค้าและวันที่ในรูปแบบต่อไปนี้:
CustomerId, คะแนน, วันที่
MovieIds มีตั้งแต่ 1 ถึง 17770 ตามลำดับ CustomerIds มีตั้งแต่ 1 ถึง 2649429 พร้อมช่องว่าง มีผู้ใช้ 480189 คน การให้คะแนนอยู่ในระดับห้าดาว (อินทิกรัล) จาก 1 ถึง 5 วันที่มีรูปแบบ yyyy-mm-dd
# Movie by Movie Similarity Matrix
start = datetime . now ()
if not os . path . isfile ( 'm_m_sim_sparse.npz' ):
print ( "It seems you don't have that file. Computing movie_movie similarity..." )
start = datetime . now ()
m_m_sim_sparse = cosine_similarity ( X = train_sparse_matrix . T , dense_output = False )
print ( "Done.." )
# store this sparse matrix in disk before using it. For future purposes.
print ( "Saving it to disk without the need of re-computing it again.. " )
sparse . save_npz ( "m_m_sim_sparse.npz" , m_m_sim_sparse )
print ( "Done.." )
else :
print ( "It is there, We will get it." )
m_m_sim_sparse = sparse . load_npz ( "m_m_sim_sparse.npz" )
print ( "Done ..." )
print ( "It's a " , m_m_sim_sparse . shape , " dimensional matrix" )
print ( datetime . now () - start )
from datetime import datetime
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import os
from scipy import sparse
from scipy.sparse import csr_matrix
from sklearn.decomposition import TruncatedSVD
from sklearn.metrics.pairwise import cosine_similarity
import random
knn_bsl_u 1.0726493739667242
knn_bsl_m 1.072758832653683
svdpp 1.0728491944183447
bsl_algo 1.0730330260516174
xgb_knn_bsl_mu 1.0753229281412784
xgb_all_models 1.075480663561971
first_algo 1.0761851474385373
xgb_bsl 1.0763419061709816
xgb_final 1.0763580984894978
xgb_knn_bsl 1.0763602465199797
Name: rmse, dtype: object
รายงาน - รายงานโดยละเอียดเกี่ยวกับการวิเคราะห์
git clone https://github.com/iamsivab/Movie-Recommendation-Netflix.git
ตรวจสอบปัญหาใด ๆ จากที่นี่
ทำการเปลี่ยนแปลงและส่งคำขอดึง
- อย่าลังเลที่จะติดต่อฉัน @ [email protected]
MIT © Sivasubramanian