ดาวน์โหลดนวนิยายบนเว็บไซต์ https://www.po18.tw เป็นเอกสาร TXT
เว็บไซต์นี้ไม่สามารถเข้าถึงได้ในจีนแผ่นดินใหญ่และต้องใช้พร็อกซี
รับเนื้อหาบทฟรี/ซื้อฟรีเท่านั้น โปรดซื้อบทที่จ่ายด้วยตนเองก่อน
สภาพแวดล้อมการพัฒนา: Python 3.7
reference.py
ถึงการสาธิตการดาวน์โหลดนวนิยาย PO18 (Python 2.7)
สวย
การร้องขอ
LXML
ก่อนอื่นค้นหา ID หนังสือ (สตริงของตัวเลขหลังจาก URL /books/
) และกำหนดให้กับ book_number
ค้นหาจำนวนเนื้อหาบททั้งหมด (ดู [สี่หลัก] ในบทก่อนหน้าในบทล่าสุดในไดเรกทอรีหรือดูจาก狀態未完結(目前xxx章回)
) และกำหนดให้กับ chapter_sum
คุณสามารถเข้าถึงหน้านวนิยายหลังจากเข้าสู่ระบบและกำหนด account
และ pwd
ใน login()
เป็นข้อมูลบัญชีจริงของคุณ (ข้อมูลนี้มีอยู่ในเครื่องและจะถูกส่งไปยังเซิร์ฟเวอร์ PO18 สำหรับการเข้าสู่ระบบเท่านั้น)
เปลี่ยน txt = open('路径' + book_number + '.txt', 'a')
, ค้นหาเส้นทางโฟลเดอร์และแทนที่อักขระภาษาจีน
login()
-> data{}
ของ client_ip
ถูกแทนที่ด้วย IP ดั้งเดิมของตัวเอง (วิธีการตรวจสอบ IP อย่าถามฉัน) หากคุณใช้สคริปต์นี้ในการกลั่นกรองเซิร์ฟเวอร์เว็บไซต์จะไม่ตอบสนองต่อ IPS ที่เข้าถึงได้บ่อยเกินไป
หากเว็บไซต์รายงานข้อผิดพลาดให้ค้นหาเอาต์พุตบรรทัดคำสั่งสุดท้าย xx https://www.po18.tw/books/---/articles/----- processing...
กำหนดหมายเลข xx
ให้ start
ที่นี่คุณมักจะต้องแก้ไขพารามิเตอร์ page
ใน getContent(page)
และคำนวณด้วยตัวเอง
รันใหม่และการดาวน์โหลดจะดำเนินต่อไป (โพสต์นี้อาจทำซ้ำหลายครั้ง)