Этот скрипт помогает вам получить список URL-адресов книг с веб-сайта Projekt Gutenberg, отфильтровать нежелательные URL-адреса и загрузить соответствующие файлы EPUB с помощью службы epub2go.
Мой друг пожаловался на то, что Projekt Gutenberg скрывает файлы ePub книг, которые они оцифровали, в своем магазине за платным доступом. Он хотел получить все книги в формате ePub, и я решил это сделать, поскольку книги уже доступны в формате HTML. После некоторых исследований я наткнулся на сервис epub2go, который упростил преобразование книг из HTML в ePub без необходимости использования локальных зависимостей и вычислений.
Этот скрипт автоматизирует процесс загрузки книг из Projekt Gutenberg, конвертирует их в формат ePub с помощью сервиса epub2go и сохраняет конвертированные файлы на ваш локальный компьютер*.
(*В настоящее время это довольно некрасиво, поскольку они просто сбрасывают их все в рабочий каталог сценария)
URL-адреса Scrapbook от Project Gutenberg
Отфильтруйте нежелательные URL-адреса (кроме книг)
Загружает конвертированные файлы ePub с помощью сервиса epub2go.
Добавляет задержку между запросами, чтобы избежать перегрузки службы.
Выполните следующие действия, чтобы настроить и запустить скрипт:
Загрузите последнюю версию ChromeDriver для Selenium, соответствующую установленной версии Chrome/Chromium. Поместите двоичный файл в нужное место и обновите путь в коде.
Загрузите и распакуйте последнюю версию браузера Google Chrome или Chromium для автоматического выполнения клиентского JavaScript.
Установите необходимые зависимости Python с помощью pip:
pip install -r требования.txt
Настраиваемая задержка между загрузками и конверсиями
Распараллеливание загрузок для увеличения скорости загрузки (с разумным ограничением, чтобы гарантировать, что мы не перегружаем epub2go)
Заранее удалите полные имена авторов и названия книг, затем создайте структуру каталогов на основе books/author/book_title
и поместите туда файлы ePub.