VitalSource GrabberダウンロードVitalSource Grabberソースコードのダウンロード

VitalSource Grabber

その他のソースコード

1.0.0

ダウンロード

背景

VitalSourceは、教科書用のオンラインストアです。残念ながら、購入したコンテンツへのアクセスは非常に限られています。 Vitalsourceのアプリを使用して本（PDFなし）を読む必要があり、印刷は一度に2ページに制限されています。これらの2ページは、電子メールアドレスが透かして透かしられ、画像として提供されるため、検索不可能になります。素晴らしい。 Vitalsourceの本のダウンロードを約束する他のいくつかのリポジトリがありますが、それらのどれも私のために働いていないので、私は自分のものを書きました。

要件

macOS（スクリプトは任意のOSで実行する必要がありますが、このガイドはmacOSに焦点を当てています）
購入した本を備えたVitalSourceアカウント
VitalSource BookShelfMacアプリ
リクエストPythonライブラリ（ pip3 install requests ）
ImageMagick（ brew install imagemagick ）
Man-in-the-Middleプロキシ（Proxie/Mitmproxy/Charles Proxy）

プロセス

個々のページをダウンロードします
透かしを削除します
ページ番号を追加します
個々のページを単一のPDFファイルにマージします
PDFを検索可能にするためのocr（このガイドでカバーされていません）

シングル対ダブルページ印刷

前述のように、VitalSourceを使用すると、一度に最大2ページを印刷できます。これは重要な詳細です。各本は別の形式（A5/A4/カスタム）で設定される可能性があるため、印刷されたレイアウトは常にA4サイズです。したがって、2つのA5サイズのテキストでは、2つのA4印刷ページが完全には記入されません。

VitalSourceに1つずつページを印刷するように依頼すると、すべてのページのコンテンツが均等に分散されます。 2ページで印刷することを選択し、元の本がA4形式よりも小さく設定されていた場合、均一なページは通常ほとんど空になります。この違いをよりよく説明するには、次の画像を参照してください。シングル対ダブルページ印刷

ステップ1（個々のページをダウンロード）

ページをダウンロードするには、希望するバリアントに応じて、 download_single.pyまたはdownload_double.pyスクリプトのいずれかを使用する必要があります。両方のバリアントで最初の10ページをダウンロードし、結果に基づいて決定することをお勧めします（各本で異なります）。

スクリプトを実行する前に、行9-11、 IBAN 、 VitalSourceAPIKey 、およびVitalSourceAccessTokenの行のパラメーターを変更する必要があります。 IBANはかなり自明ですが、他の2つのパラメーターはあなたの側で何らかの作業を必要とします。推奨されるデバッグプロキシのいずれかを使用して、BookShelfアプリのネットワークトラフィックをキャプチャし、そこから2つのヘッダープロパティを抽出する必要があります。プロキシを配置したら、本棚アプリで本を開いて、任意のページを印刷します。次に、 https://print.vitalsource.com/ domainへのトラフィックのプロキシログを確認し、リクエストヘッダーを確認します。