書籍推薦システムは、ユーザーの興味や読書履歴に基づいて書籍を提案するツールです。これらのシステムは、図書館、書店、オンライン小売業者がユーザーが興味を持ちそうな新しい本を見つけるのに役立ちます。
書籍推薦システムを構築するには、協調フィルタリング、コンテンツベースのフィルタリング、両方のアプローチを組み合わせたハイブリッド システムなど、いくつかのアプローチがあります。
協調フィルタリングは、同様の読書履歴を持つユーザーは同様の興味を持っている可能性が高いという考えに基づいており、あるユーザーが好きな本は、同様の読書履歴を持つ別のユーザーも楽しめる可能性が高くなります。このアプローチは、映画、音楽、その他の製品の推奨システムでよく使用されます。
一方、コンテンツベースのフィルタリングは、ジャンル、テーマ、著者などの書籍自体の特徴に焦点を当てて推奨します。このアプローチは、協調フィルタリングを使用するためのユーザーの設定に関する十分なデータがない場合に役立ちます。
ハイブリッド システムは、協調フィルタリングとコンテンツベースのフィルタリングの両方を組み合わせて推奨を行います。書籍の特徴とユーザーの好みの両方を考慮して、よりパーソナライズされた推奨事項を提供できます。
効果的な書籍推奨システムを構築するには、システムをトレーニングするための大量のデータの必要性、自然言語処理の複雑さ、推奨のパーソナライズと推奨される書籍の多様性のバランスをとる必要性など、いくつかの課題があります。
Book-Crossing データセットは 3 つのファイルで構成されます。
ユーザー:ユーザーが含まれます。ユーザー ID (User-ID) は匿名化されており、整数にマップされていることに注意してください。利用可能な場合は、人口統計データ (場所、年齢) が提供されます。それ以外の場合、これらのフィールドには NULL 値が含まれます。
書籍:書籍はそれぞれの ISBN によって識別されます。無効な ISBN はデータセットからすでに削除されています。さらに、アマゾン ウェブ サービスから取得した一部のコンテンツベースの情報 (本のタイトル、本の著者、出版年、出版社) が提供されます。著者が複数いる場合は、最初の著者のみが提供されることに注意してください。カバー画像にリンクする URL も指定されており、小、中、大の 3 つの異なる形式 (Image-URL-S、Image-URL-M、Image-URL-L) で表示されます。これらの URL は Amazon Web サイトを指します。
評価:書籍の評価情報が含まれます。評価 (Book-Rating) は、1 ~ 10 のスケールで表される明示的なもの (値が大きいほど評価が高いことを示します)、または暗黙的な 0 で表されます。
データセット リンク:- https://drive.google.com/drive/folders/1Gi0wMWCTigA_rJSi9huyT51lKduBSv43?usp=share_link