O VitalSource é uma loja on -line para livros de texto. Infelizmente, o acesso ao conteúdo adquirido é extremamente limitado. Você precisa usar os aplicativos da VitalSource para ler os livros (sem PDFs) e a impressão é limitada a 2 páginas por vez. Essas duas páginas também serão marcadas com o seu endereço de e-mail e serão fornecidas como uma imagem, tornando-se não pesquisáveis. Ótimo. Existem vários outros repositórios prometendo download dos livros de Vitalsource, mas nenhum deles funcionou para mim, então eu escrevi o meu.
pip3 install requests
)brew install imagemagick
)Como mencionado anteriormente, o VitalSource permite imprimir max 2 páginas por vez. Esse é um detalhe importante, porque, embora cada livro possa ser definido em um formato diferente (A5/A4/Custom), o layout impresso está sempre no tamanho A4. Portanto, duas páginas de texto de tamanho A5 não encherão completamente duas páginas impressas A4.
Se pedirmos ao VitalSource para imprimir páginas uma a uma, o conteúdo em todas as páginas será igualmente distribuído. Se optarmos por imprimir por 2 páginas, e o livro original foi definido em formato menor que A4, as páginas pares geralmente estarão quase vazias. Para ilustrar melhor essa diferença, consulte a imagem a seguir.
Para baixar as páginas, você deseja usar o script download_single.py
ou download_double.py
, dependendo da variante que você preferir. Eu recomendaria baixar 10 primeiras páginas em ambas as variantes e decidir com base nos resultados (variará para cada livro).
Antes de executar o script, você desejará modificar alguns parâmetros nas linhas 9-11: IBAN
, VitalSourceAPIKey
e VitalSourceAccessToken
. Embora o IBAN seja bastante auto-explicativo, os outros dois parâmetros exigirão algum trabalho de sua parte. Você precisará capturar o tráfego de rede do aplicativo de estante de livros usando um dos proxies de depuração recomendado e extrair as duas propriedades do cabeçalho dele. Depois de ter o proxy, abra seu livro no aplicativo da estante e imprima qualquer página. Em seguida, verifique seu log de proxy para tráfego para https://print.vitalsource.com/
domínio e verifique os cabeçalhos da solicitação.
Depois de atualizar os 3 parâmetros, execute o script. Ele vai lentamente (o download é acelerado para evitar alertas de acionar) baixar as páginas solicitadas em uma nova pasta em seus downloads.
O process.sh
de script.sh cuida da limpeza das páginas baixadas. Primeiro, ele remove as marcas d'água e adiciona o número da página à parte inferior de cada página.
Basta executar o script com o IBAN do livro baixado como o único parâmetro e você deve ser bom. Assim ./process.sh 9781000710899
Este é fácil - basta selecionar todas as imagens, clicar com o botão direito do mouse e selecionar ações rápidas> Criar PDF
Para tornar o PDF final pesquisável, você precisa executar o reconhecimento óptico de caracteres (OCR). Existem muitas ferramentas comerciais que podem fazer isso, por exemplo, Adobe Acrobat.