Примените традиционные OCR или тяжелые библиотеки, чтобы получить данные из PDF-файлов, GenAI справляется со своей задачей лучше!
AIPDF — это автономная, минималистичная, но мощная библиотека на чистом Python, которая использует мультимодальные модели искусственного интеллекта (OpenAI, llama3 или совместимые альтернативы) для извлечения данных из PDF-файлов и преобразования их в различные форматы, такие как Markdown или JSON.
pip install aipdf
в macOS вам нужно будет установить poppler
brew install poppler
from aipdf import ocr
# Your OpenAI API key
api_key = 'your_openai_api_key'
file = open ( 'somepdf.pdf' , 'rb' )
markdown_pages = ocr ( file , api_key )
Вы можете использовать с любыми мультимодальными моделями ollama.
ocr ( pdf_file , api_key = 'ollama' , model = "llama3.2" , base_url = 'http://localhost:11434/v1' , prompt = ...)
Мы решили передать файловый объект, потому что таким образом вы сможете гибко использовать его с любым типом файловой системы, s3, localfiles, URL-адресами и т. д.
pdf_file = io . BytesIO ( requests . get ( 'https://arxiv.org/pdf/2410.02467' ). content )
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract tables, return each table in json" )
s3 = boto3 . client ( 's3' , config = Config ( signature_version = 's3v4' ),
aws_access_key_id = access_token ,
aws_secret_access_key = '' , # Not needed for token-based auth
aws_session_token = access_token )
pdf_file = io . BytesIO ( s3 . get_object ( Bucket = bucket_name , Key = object_key )[ 'Body' ]. read ())
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract charts data, turn it into tables that represent the variables in the chart" )
Мы будем держать это в чистоте, всего 3 необходимые библиотеки:
Этот проект лицензируется по лицензии MIT — подробности см. в файле LICENSE.
Вклады приветствуются! Пожалуйста, не стесняйтесь отправить запрос на включение.
Если у вас возникнут какие-либо проблемы или возникнут вопросы, откройте проблему в репозитории GitHub.
AIPDF делает извлечение данных PDF простым, гибким и мощным. Попробуйте и упростите рабочий процесс обработки PDF уже сегодня!