Загрузите роман на веб -сайте https://www.po18.tw в качестве документа TXT.
На этот веб -сайт не может быть доступен в материковом Китае, и должен использоваться прокси.
Получите только бесплатное/купленное содержание главы. Пожалуйста, купите платную главу вручную вручную.
Среда развития: Python 3.7
Обратитесь к демонстрации романа PO18 (Python 2.7 reference.py
.
BeautifulSoup
Запросы
LXML
Сначала найдите идентификатор книги (строка чисел после URL /books/
) и назначьте его на book_number
.
Найдите общее количество содержания главы (см. [Четыре цифры] в предыдущей главе в последней главе в каталоге или см. В狀態未完結(目前xxx章回)
), и назначьте его в chapter_sum
.
Вы можете получить доступ к новой странице только после входа в систему и назначить account
и pwd
в login()
в качестве информации о реальной учетной записи (эта информация существует локально и будет отправлен на сервер PO18 только для входа в систему).
Измените txt = open('路径' + book_number + '.txt', 'a')
, найдите путь папки и замените китайские иероглифы.
login()
-> data{}
S client_ip
заменяется своим собственным собственным IP (как проверить IP, не спрашивайте меня). Если вы используете этот скрипт в модерации, сервер веб -сайтов не будет отвечать на IP, которые доступны слишком часто.
Если на веб-сайте сообщается об ошибке, найдите последнюю командную строку вывод xx https://www.po18.tw/books/---/articles/----- processing...
, назначьте номер xx
для start
.
Здесь обычно нужно изменить параметры page
в getContent(page)
и вычислить ее самостоятельно.
Повторный перезагрузчик и загрузка будут продолжаться. (Этот пост может повторяться несколько раз)