Téléchargez le roman sur le site Web https://www.po18.tw en tant que document TXT.
Ce site Web n'est pas accessible en Chine continentale et un proxy doit être utilisé.
Obtenez uniquement le contenu du chapitre gratuit / acheté. Veuillez d'abord acheter le chapitre payant.
Environnement de développement: Python 3.7
Reportez- reference.py
à la démo de téléchargement du roman PO18 (Python 2.7).
BelSoup
Demandes
lxml
Trouvez d'abord l'ID de livre (la chaîne de nombres après URL /books/
) et attribuez-la à book_number
.
Trouvez le nombre total de contenu du chapitre (voir les [quatre chiffres] dans le chapitre précédent du dernier chapitre du répertoire, ou voyez à partir de狀態未完結(目前xxx章回)
), et attribuez-le au chapter_sum
.
Vous ne pouvez accéder à la page nouvelle qu'après vous connecter et attribuer account
et pwd
dans login()
comme informations réelles de compte (ces informations existent localement et ne seront envoyées qu'au serveur PO18 pour la connexion).
Changez txt = open('路径' + book_number + '.txt', 'a')
, trouvez un chemin de dossier et remplacez les caractères chinois.
login()
-> data{}
's client_ip
est remplacé par sa propre IP native (comment vérifier l'IP, ne me demandez pas). Si vous utilisez ce script avec modération, le serveur de sites Web ne répondra pas aux IPS qui sont consultés trop fréquemment.
Si le site Web signale une erreur, trouvez la dernière sortie de ligne de commande xx https://www.po18.tw/books/---/articles/----- processing...
, affectez le numéro xx
pour start
.
Ici, vous devez généralement modifier les paramètres page
dans getContent(page)
et le calculer vous-même.
La relance et le téléchargement se poursuivront. (Ce message peut être répété plusieurs fois)