Vitalsource是一家用於教科書的在線商店。不幸的是,訪問購買的內容非常有限。您必須使用Vitalsource的應用程序來閱讀書籍(無PDF),並且一次打印一次限制為2頁。這兩個頁面也將通過您的電子郵件地址進行水標記,並將作為圖像提供,因此變得不可搜索。偉大的。還有其他一些存儲庫有望下載Vitalsource書籍,但它們都不對我有用,所以我寫了自己的書。
pip3 install requests
)brew install imagemagick
)如前所述,VitalSource允許您一次打印最大2頁。這是一個重要的細節,因為每本書可能以不同的格式設置(A5/A4/Custom),但打印的佈局始終為A4大小。因此,兩個A5大小的文本不會完全填寫兩個A4印刷頁面。
如果我們要求VitalSource一一打印頁面,所有頁面上的內容都將平均分佈。如果我們選擇按2頁打印,並且原始書的設置為小於A4格式,則偶數頁通常幾乎是空的。為了更好地說明這種差異,請參考以下圖像。
要下載頁面,您需要使用download_single.py
或download_double.py
腳本,具體取決於您喜歡哪種變體。我建議在兩個變體中下載前10頁,並根據結果決定(每本書都會有所不同)。
在運行腳本之前,您需要在第9-11行上修改一些參數: IBAN
, VitalSourceAPIKey
和VitalSourceAccessToken
。儘管伊班具有相當不言自明,但其他兩個參數將需要您的一些工作。您需要使用推薦的調試代理之一捕獲書架應用程序的網絡流量,並從中提取兩個標頭屬性。擁有代理後,請在書架應用中打開您的書並打印任何頁面。然後檢查您的代理日誌以獲取到https://print.vitalsource.com/
域的流量,然後檢查請求標題。
更新了3個參數後,請運行腳本。它將慢慢(為了避免觸發警報而進行下載)將請求的頁面下載到下載中的新文件夾中。
腳本process.sh
負責清理下載的頁面。首先,它刪除了水印,然後將頁碼添加到每個頁面的底部。
只需將下載書的iban作為唯一的參數運行腳本,您應該很好。這樣的./process.sh 9781000710899
這個很容易 - 只需選擇所有圖像,右鍵單擊並選擇快速操作>創建PDF
要使最終的PDF可搜索,您需要在其上運行光學角色識別(OCR)。有許多可以做到這一點的商業工具,例如Adobe Acrobat。