圖書推薦系統是一種根據使用者的興趣和閱讀歷史向使用者推薦書籍的工具。圖書館、書店或線上零售商可以使用這些系統來幫助使用者發現他們可能喜歡的新書。
建立圖書推薦系統有多種方法,包括協作過濾、基於內容的過濾以及結合這兩種方法的混合系統。
協同過濾基於這樣的想法:具有相似閱讀歷史的用戶可能有相似的興趣,因此一個用戶喜歡的一本書很可能被另一個具有相似閱讀歷史的用戶喜歡。這種方法通常用於電影、音樂和其他產品的推薦系統。
而基於內容的過濾則著重於書籍本身的特徵,例如類型、主題、作者等,來進行推薦。當沒有足夠的關於使用者使用協同過濾的偏好的資料時,此方法非常有用。
混合系統結合協作過濾和基於內容的過濾來提出推薦。他們可以兼顧圖書的特色和使用者的喜好,提供更個人化的推薦。
建立有效的圖書推薦系統面臨一些挑戰,包括需要大量資料來訓練系統、自然語言處理的複雜性以及需要平衡推薦的個人化與推薦書籍的多樣性。
Book-Crossing 資料集包含 3 個檔案。
用戶:包含用戶。請注意,使用者 ID (User-ID) 已被匿名化並對應為整數。如果有的話,提供人口統計資料(位置、年齡)。否則,這些欄位包含 NULL 值。
書籍:書籍由各自的 ISBN 標識。無效的 ISBN 已從資料集中刪除。此外,也提供了從 Amazon Web Services 取得的一些基於內容的資訊(書名、書作者、出版年份、出版商)。請注意,如果有多個作者,則僅提供第一個作者。也給出了連結到封面圖像的 URL,以三種不同的形式出現(Image-URL-S、Image-URL-M、Image-URL-L),即小、中、大。這些 URL 指向亞馬遜網站。
評級:包含書籍評級資訊。評級(圖書評級)可以是明確的,以 1-10 的範圍表示(較高的值表示較高的欣賞度),也可以是隱式的,以 0 表示。
資料集連結:- https://drive.google.com/drive/folders/1Gi0wMWCTigA_rJSi9huyT51lKduBSv43?usp=share_link