https://www.po18.tw WebサイトでTXTドキュメントとして小説をダウンロードしてください。
このウェブサイトに中国本土でアクセスすることはできず、プロキシを使用する必要があります。
無料/購入した章のコンテンツのみを取得します。最初に有料の章を手動で購入してください。
開発環境:Python 3.7
PO18 reference.py
小説Demo(Python 2.7)を参照してください。
BeautifulSoup
リクエスト
LXML
最初に本ID(url /books/
の後の数字の文字列)を見つけて、 book_number
に割り当てます。
ディレクトリの最新章の前の章の[4桁の[4桁]を参照するか、狀態未完結(目前xxx章回)
を参照して、 chapter_sum
に割り当てます。
ログイン後にのみ小説ページにアクセスし、 account
とpwd
をlogin()
に割り当てることができます(この情報はローカルに存在し、ログインのためにPO18サーバーにのみ送信されます)。
txt = open('路径' + book_number + '.txt', 'a')
変更し、フォルダパスを見つけて、漢字を置き換えます。
login()
- > data{}
のclient_ip
、独自のネイティブIPに置き換えられます(IPを確認する方法、尋ねないでください)。このスクリプトを適度に使用する場合、Webサイトサーバーはあまりにも頻繁にアクセスされるIPに応答しません。
ウェブサイトがエラーを報告した場合、最後のコマンドライン出力xx https://www.po18.tw/books/---/articles/----- processing...
を見つけて、xx start
には番号xx
を割り当てます。
ここでは、通常、 getContent(page)
のpage
パラメーターを変更し、自分で計算する必要があります。
再実行され、ダウンロードは継続されます。 (この投稿は数回繰り返される場合があります)