สคริปต์นี้ช่วยให้คุณดึงรายการ URL หนังสือจากเว็บไซต์ Projekt Gutenberg กรอง URL ที่ไม่ต้องการออก และดาวน์โหลดไฟล์ EPUB ที่เกี่ยวข้องโดยใช้บริการ epub2go
เพื่อนของฉันคนหนึ่งบ่นว่า Projekt Gutenberg ซ่อนไฟล์ ePub ของหนังสือที่พวกเขาแปลงเป็นดิจิทัลในร้านของตนหลังเพย์วอลล์ เขาต้องการรับหนังสือทั้งหมดในรูปแบบ ePub และฉันตัดสินใจที่จะทำให้มันเกิดขึ้น เนื่องจากหนังสือมีจำหน่ายในรูปแบบ HTML อยู่แล้ว หลังจากการค้นคว้าข้อมูลมาบ้าง ฉันบังเอิญไปพบกับบริการ epub2go ซึ่งทำให้การแปลงหนังสือจาก HTML เป็น ePub ง่ายขึ้น โดยไม่จำเป็นต้องพึ่งพาอาศัยและคำนวณในเครื่อง
สคริปต์นี้ทำให้กระบวนการดาวน์โหลดหนังสือจาก Projekt Gutenberg เป็นแบบอัตโนมัติ แปลงเป็นรูปแบบ ePub โดยใช้บริการ epub2go และจัดเก็บไฟล์ที่แปลงแล้วไว้ในเครื่องของคุณ*
(*ปัจจุบันนี้ค่อนข้างน่าเกลียดเนื่องจากเพิ่งทิ้งข้อมูลทั้งหมดลงในไดเร็กทอรีการทำงานของสคริปต์)
คัดลอก URL หนังสือจาก Projekt Gutenberg
กรอง URL ที่ไม่ต้องการออก (ซึ่งไม่ใช่หนังสือ)
ดาวน์โหลดไฟล์ ePub ที่แปลงแล้วโดยใช้บริการ epub2go
เพิ่มความล่าช้าระหว่างคำขอเพื่อหลีกเลี่ยงการให้บริการมากเกินไป
ทำตามขั้นตอนเหล่านี้เพื่อตั้งค่าและเรียกใช้สคริปต์:
ดาวน์โหลด ChromeDriver ล่าสุดสำหรับ Selenium ที่ตรงกับเวอร์ชัน Chrome/Chromium ที่คุณติดตั้งไว้ วางไบนารีในตำแหน่งที่คุณต้องการและอัปเดตเส้นทางในโค้ด
ดาวน์โหลดและแกะเบราว์เซอร์ Google Chrome หรือ Chromium เวอร์ชันล่าสุดสำหรับการดำเนินการ JavaScript ฝั่งไคลเอ็นต์แบบไม่มีส่วนหัว
ติดตั้งการพึ่งพา Python ที่จำเป็นโดยใช้ pip:
pip ติดตั้ง -r ข้อกำหนด.txt
ความล่าช้าที่กำหนดค่าได้ระหว่างการดาวน์โหลดและการแปลง
การดาวน์โหลดแบบขนานเพื่อเพิ่มความเร็วในการดาวน์โหลด (โดยมีข้อจำกัดที่เหมาะสมเพื่อให้แน่ใจว่าเราไม่ได้โหลด epub2go มากเกินไป)
คัดลอกชื่อผู้แต่งและชื่อหนังสือเต็มไว้ล่วงหน้า จากนั้นสร้างโครงสร้างไดเร็กทอรีตาม books/author/book_title
และวางไฟล์ ePub ไว้ในนั้น