Netflix就是將人們與他們喜歡的電影聯繫起來。為了幫助客戶找到這些電影,他們開發了世界一流的電影推薦系統:Cinematchsm。它的工作是預測某人是否會根據自己喜歡或不喜歡其他電影的方式欣賞電影。 Netflix使用這些預測來根據每個客戶的獨特口味做出個人電影建議。儘管Cinematch做得很好,但總是可以使它變得更好。
現在,對於Netflix尚未嘗試的CineMatch的工作方式有很多有趣的替代方法。文獻中有些描述,有些不是。我們很好奇這些都可以通過做出更好的預測來擊敗Cinematch。因為坦率地說,如果有更好的方法,它可能會對我們的客戶和我們的業務產生重大影響。
積分:https://www.netflixprize.com/rules.html
#DataScience
#Netflix
#Recommendation System
#Ratings
#Movie PRediction
#Numpy-Pandas
Netflix提供了許多匿名評級數據,並且預測準確性欄比CineMatch在同一培訓數據集上所做的好10%。 (準確性是對電影的緊密預測評分與隨後的實際評分相匹配的測量。)
從以下獲取數據:https://www.kaggle.com/netflix-inc/netflix-prize-data/data
數據文件:
每個文件的第一行[combined_data_1.txt,combined_data_2.txt,combined_data_3.txt,combiend_data_4.txt]包含電影ID,後跟結腸。文件中的每個後續行都對應於客戶的評分及其日期以下格式:
客戶ID,評級,日期
Movieids依次從1到17770年。顧客ID範圍從1到2649429,距離有空白。有480189個用戶。評分在1到5的五顆星(積分)等級上。日期具有格式Yyyy-MM-DD。
# Movie by Movie Similarity Matrix
start = datetime . now ()
if not os . path . isfile ( 'm_m_sim_sparse.npz' ):
print ( "It seems you don't have that file. Computing movie_movie similarity..." )
start = datetime . now ()
m_m_sim_sparse = cosine_similarity ( X = train_sparse_matrix . T , dense_output = False )
print ( "Done.." )
# store this sparse matrix in disk before using it. For future purposes.
print ( "Saving it to disk without the need of re-computing it again.. " )
sparse . save_npz ( "m_m_sim_sparse.npz" , m_m_sim_sparse )
print ( "Done.." )
else :
print ( "It is there, We will get it." )
m_m_sim_sparse = sparse . load_npz ( "m_m_sim_sparse.npz" )
print ( "Done ..." )
print ( "It's a " , m_m_sim_sparse . shape , " dimensional matrix" )
print ( datetime . now () - start )
from datetime import datetime
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import os
from scipy import sparse
from scipy.sparse import csr_matrix
from sklearn.decomposition import TruncatedSVD
from sklearn.metrics.pairwise import cosine_similarity
import random
knn_bsl_u 1.0726493739667242
knn_bsl_m 1.072758832653683
svdpp 1.0728491944183447
bsl_algo 1.0730330260516174
xgb_knn_bsl_mu 1.0753229281412784
xgb_all_models 1.075480663561971
first_algo 1.0761851474385373
xgb_bsl 1.0763419061709816
xgb_final 1.0763580984894978
xgb_knn_bsl 1.0763602465199797
Name: rmse, dtype: object
報告 - 分析的詳細報告
git clone https://github.com/iamsivab/Movie-Recommendation-Netflix.git
從這裡查看任何問題。
進行更改並發送拉力請求。
?隨時與我聯繫 @ [email protected]
麻省理工學院©Sivasubramanian