PDFMiner — это инструмент для извлечения текста из PDF-документов.
Предупреждение : по состоянию на 2020 год PDFMiner активно не поддерживается . Код все еще работает, но этот проект по большей части бездействует. Если вы хотите узнать об активном проекте, посмотрите его форк pdfminer.six.
> pip install pdfminer
> pdf2txt.py samples/simple1.pdf
pdf2txt.py извлекает все тексты, отображаемые программно. Он также извлекает соответствующие местоположения, названия шрифтов, размеры шрифтов, направление письма (горизонтальное или вертикальное) для каждого сегмента текста. Он не распознает текст на изображениях. Для PDF-документов с ограниченным доступом необходимо указать пароль.
> pdf2txt.py [-P password] [-o output] [-t text|html|xml|tag]
[-O output_dir] [-c encoding] [-s scale] [-R rotation]
[-Y normal|loose|exact] [-p pagenos] [-m maxpages]
[-S] [-C] [-n] [-A] [-V]
[-M char_margin] [-L line_margin] [-W word_margin]
[-F boxes_flow] [-d]
input.pdf ...
-P password
: пароль PDF.-o output
: имя выходного файла.-t text|html|xml|tag
: тип вывода. (по умолчанию: автоматически выводится из имени выходного файла.)-O output_dir
: Выходной каталог для извлеченных изображений.-c encoding
: выходная кодировка. (по умолчанию: utf-8)-s scale
: Масштаб вывода.-R rotation
: поворачивает страницу в градусах.-Y normal|loose|exact
: определяет режим макета. (только для вывода HTML.)-p pagenos
: обрабатывает только определенные страницы.-m maxpages
: ограничивает максимальное количество страниц для обработки.-S
: удаляет управляющие символы.-C
: отключает кэширование ресурсов.-n
: отключает анализ макета.-A
: Применяет анализ макета для всех текстов, включая рисунки.-V
: автоматически определяет вертикальное письмо.-M char_margin
: определяет поле для символов.-W word_margin
: определяет поле слова.-L line_margin
: определяет поле строки.-F boxes_flow
: определяет соотношение потока блоков.-d
: включает вывод отладки.dumppdf.py используется для отладки PDF-файлов. Он выгружает все внутреннее содержимое в формате псевдо-XML.
> dumppdf.py [-P password] [-a] [-p pageid] [-i objid]
[-o output] [-r|-b|-t] [-T] [-O directory] [-d]
input.pdf ...
-P password
: пароль PDF.-a
: Извлекает все объекты.-p pageid
: извлекает объект страницы.-i objid
: извлекает определенный объект.-o output
: имя выходного файла.-r
: необработанный режим. Выводит необработанные сжатые/закодированные потоки.-b
: Двоичный режим. Выводит несжатые/декодированные потоки.-t
: текстовый режим. Сбрасывает потоки в текстовом формате.-T
: режим с тегами. Сбрасывает содержимое тегов.-O output_dir
: Выходной каталог для извлеченных потоков.