도서 추천 시스템은 사용자의 관심분야와 독서 이력을 기반으로 사용자에게 도서를 추천하는 도구입니다. 도서관, 서점, 온라인 소매업체에서는 이러한 시스템을 사용하여 사용자가 좋아할 만한 새로운 책을 찾는 데 도움을 줄 수 있습니다.
도서 추천 시스템을 구축하는 방법에는 협업 필터링, 콘텐츠 기반 필터링, 두 가지 접근 방식을 결합한 하이브리드 시스템 등 여러 가지 접근 방식이 있습니다.
협업 필터링은 비슷한 독서 이력을 가진 사용자는 비슷한 관심사를 가질 가능성이 높기 때문에 한 사용자가 좋아하는 책은 비슷한 독서 이력을 가진 다른 사용자가 즐길 가능성이 높다는 생각에 기반합니다. 이 접근 방식은 영화, 음악 및 기타 제품 추천 시스템에 자주 사용됩니다.
반면, 내용 기반 필터링은 장르, 주제, 저자 등 책 자체의 특성에 초점을 맞춰 추천합니다. 이 접근 방식은 협업 필터링을 사용하기 위한 사용자 기본 설정에 대한 데이터가 충분하지 않은 경우에 유용합니다.
하이브리드 시스템은 협업 필터링과 콘텐츠 기반 필터링을 결합하여 추천을 제공합니다. 책의 특성과 사용자의 선호도를 모두 고려하여 보다 개인화된 추천을 제공할 수 있습니다.
효과적인 도서 추천 시스템을 구축하려면 시스템 교육을 위한 대량의 데이터 필요성, 자연어 처리의 복잡성, 추천 개인화와 추천 도서의 다양성 사이의 균형을 유지해야 하는 등 여러 가지 과제가 있습니다.
Book-Crossing 데이터 세트는 3개의 파일로 구성됩니다.
사용자: 사용자를 포함합니다. 사용자 ID(User-ID)는 익명화되어 정수로 매핑됩니다. 가능한 경우 인구통계 데이터(위치, 연령)가 제공됩니다. 그렇지 않으면 이러한 필드에 NULL 값이 포함됩니다.
도서: 도서는 해당 ISBN으로 식별됩니다. 잘못된 ISBN이 데이터세트에서 이미 삭제되었습니다. 또한 Amazon Web Services에서 얻은 일부 콘텐츠 기반 정보(도서 제목, 도서 저자, 출판 연도, 출판사)가 제공됩니다. 저자가 여러 명인 경우 첫 번째 저자만 제공된다는 점에 유의하세요. 표지 이미지로 연결되는 URL도 제공되며 세 가지 다른 유형(이미지-URL-S, 이미지-URL-M, 이미지-URL-L), 즉 소형, 중형, 대형으로 나타납니다. 이러한 URL은 Amazon 웹사이트를 가리킵니다.
등급: 도서 등급 정보를 포함합니다. 등급(도서 등급)은 1~10(높은 값이 높은 감사를 나타냄) 범위로 표현되는 명시적이거나 0으로 표현되는 암시적입니다.
데이터세트 링크:- https://drive.google.com/drive/folders/1Gi0wMWCTigA_rJSi9huyT51lKduBSv43?usp=share_link