Система рекомендаций книг — это инструмент, который предлагает пользователям книги на основе их интересов и истории чтения. Эти системы могут использоваться библиотеками, книжными магазинами или интернет-магазинами, чтобы помочь пользователям находить новые книги, которые могут им понравиться.
Существует несколько подходов к созданию системы рекомендаций книг, включая совместную фильтрацию, фильтрацию на основе контента и гибридные системы, сочетающие оба подхода.
Совместная фильтрация основана на идее, что пользователи, имеющие схожую историю чтения, скорее всего, будут иметь схожие интересы, поэтому книга, которая нравится одному пользователю, скорее всего, понравится другому пользователю с аналогичной историей чтения. Этот подход часто используется в рекомендательных системах для фильмов, музыки и других товаров.
С другой стороны, фильтрация на основе контента фокусируется на характеристиках самих книг, таких как их жанр, тема и автор, чтобы давать рекомендации. Этот подход полезен, когда недостаточно данных о предпочтениях пользователей для использования совместной фильтрации.
Гибридные системы сочетают в себе как совместную фильтрацию, так и фильтрацию на основе контента для выдачи рекомендаций. Они могут учитывать как характеристики книг, так и предпочтения пользователей, чтобы давать более персонализированные рекомендации.
Существует несколько проблем при создании эффективной системы рекомендации книг, включая необходимость больших объемов данных для обучения системы, сложность обработки естественного языка и необходимость сбалансировать персонализацию рекомендаций с разнообразием рекомендуемых книг.
Набор данных бук-кроссинга состоит из 3 файлов.
Пользователи: содержит пользователей. Обратите внимание, что идентификаторы пользователей (User-ID) анонимизированы и отображаются в целые числа. Предоставляются демографические данные (местоположение, возраст), если они доступны. В противном случае эти поля содержат значения NULL.
Книги: Книги идентифицируются по соответствующему ISBN. Недействительные номера ISBN уже удалены из набора данных. Кроме того, предоставляется некоторая информация о содержании (название книги, автор книги, год публикации, издатель), полученная от веб-служб Amazon. Обратите внимание, что в случае нескольких авторов указывается только первый. Также приведены URL-адреса, ссылающиеся на изображения обложек, которые представлены в трех разных вариантах (Image-URL-S, Image-URL-M, Image-URL-L), т. е. маленькие, средние и большие. Эти URL-адреса указывают на веб-сайт Amazon.
Рейтинги: Содержит информацию о рейтинге книги. Рейтинги (Book-Rating) бывают либо явными, выраженными по шкале от 1 до 10 (более высокие значения означают более высокую оценку), либо неявными, выраженными 0.
Ссылка на наборы данных: https://drive.google.com/drive/folders/1Gi0wMWCTigA_rJSi9huyT51lKduBSv43?usp=share_link.