Netflix就是将人们与他们喜欢的电影联系起来。为了帮助客户找到这些电影,他们开发了世界一流的电影推荐系统:Cinematchsm。它的工作是预测某人是否会根据自己喜欢或不喜欢其他电影的方式欣赏电影。 Netflix使用这些预测来根据每个客户的独特口味做出个人电影建议。尽管Cinematch做得很好,但总是可以使它变得更好。
现在,对于Netflix尚未尝试的CineMatch的工作方式有很多有趣的替代方法。文献中有些描述,有些不是。我们很好奇这些都可以通过做出更好的预测来击败Cinematch。因为坦率地说,如果有更好的方法,它可能会对我们的客户和我们的业务产生重大影响。
积分:https://www.netflixprize.com/rules.html
#DataScience
#Netflix
#Recommendation System
#Ratings
#Movie PRediction
#Numpy-Pandas
Netflix提供了许多匿名评级数据,并且预测准确性栏比CineMatch在同一培训数据集上所做的好10%。 (准确性是对电影的紧密预测评分与随后的实际评分相匹配的测量。)
从以下获取数据:https://www.kaggle.com/netflix-inc/netflix-prize-data/data
数据文件:
每个文件的第一行[combined_data_1.txt,combined_data_2.txt,combined_data_3.txt,combiend_data_4.txt]包含电影ID,后跟结肠。文件中的每个后续行都对应于客户的评分及其日期以下格式:
客户ID,评级,日期
Movieids依次从1到17770年。顾客ID范围从1到2649429,距离有空白。有480189个用户。评分在1到5的五颗星(积分)等级上。日期具有格式Yyyy-MM-DD。
# Movie by Movie Similarity Matrix
start = datetime . now ()
if not os . path . isfile ( 'm_m_sim_sparse.npz' ):
print ( "It seems you don't have that file. Computing movie_movie similarity..." )
start = datetime . now ()
m_m_sim_sparse = cosine_similarity ( X = train_sparse_matrix . T , dense_output = False )
print ( "Done.." )
# store this sparse matrix in disk before using it. For future purposes.
print ( "Saving it to disk without the need of re-computing it again.. " )
sparse . save_npz ( "m_m_sim_sparse.npz" , m_m_sim_sparse )
print ( "Done.." )
else :
print ( "It is there, We will get it." )
m_m_sim_sparse = sparse . load_npz ( "m_m_sim_sparse.npz" )
print ( "Done ..." )
print ( "It's a " , m_m_sim_sparse . shape , " dimensional matrix" )
print ( datetime . now () - start )
from datetime import datetime
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import os
from scipy import sparse
from scipy.sparse import csr_matrix
from sklearn.decomposition import TruncatedSVD
from sklearn.metrics.pairwise import cosine_similarity
import random
knn_bsl_u 1.0726493739667242
knn_bsl_m 1.072758832653683
svdpp 1.0728491944183447
bsl_algo 1.0730330260516174
xgb_knn_bsl_mu 1.0753229281412784
xgb_all_models 1.075480663561971
first_algo 1.0761851474385373
xgb_bsl 1.0763419061709816
xgb_final 1.0763580984894978
xgb_knn_bsl 1.0763602465199797
Name: rmse, dtype: object
报告 - 分析的详细报告
git clone https://github.com/iamsivab/Movie-Recommendation-Netflix.git
从这里查看任何问题。
进行更改并发送拉力请求。
?随时与我联系 @ [email protected]
麻省理工学院©Sivasubramanian