Descargue la novela en el sitio web https://www.po18.tw como un documento txt.
No se puede acceder a este sitio web en China continental y se debe utilizar un proxy.
Solo obtenga contenido de capítulo gratuito/comprado. Compre primero el capítulo pagado manualmente.
Entorno de desarrollo: Python 3.7
Consulte la demostración reference.py
descarga de novela PO18 (Python 2.7).
Beautifulsoup
Solicitudes
lxml
Primero encuentre la ID del libro (la cadena de números después de URL /books/
) y asigna a book_number
.
Encuentre el número total de contenido del capítulo (ver [cuatro dígitos] en el capítulo anterior en el último capítulo del directorio, o ver desde狀態未完結(目前xxx章回)
) y asignarlo a chapter_sum
.
Solo puede acceder a la página novedosa después de iniciar sesión y asignar account
y pwd
en login()
como información real de su cuenta (esta información existe localmente y solo se enviará al servidor PO18 para iniciar sesión).
Cambiar txt = open('路径' + book_number + '.txt', 'a')
, encontrar una ruta de carpeta y reemplazar los caracteres chinos.
login()
-> data{}
'El client_ip
se reemplaza con su propia IP nativa (cómo verificar la IP, no me pregunte). Si usa este script con moderación, el servidor del sitio web no responderá a IP a las que se accede con demasiada frecuencia.
Si el sitio web informa un error, encuentre la última salida de línea de comando xx https://www.po18.tw/books/---/articles/----- processing...
, asigne el número xx
para start
.
Aquí generalmente necesita modificar los parámetros page
en getContent(page)
y calcularlo usted mismo.
Rerun y la descarga continuarán. (Esta publicación puede repetirse varias veces)