Скачать aipdf - Скачать исходный код aipdf

aipdf

AI Исходный код

v0.0.4

Скачать

AIPDF: простое распознавание текста PDF с мультимодальными моделями, подобными GPT

Примените традиционные OCR или тяжелые библиотеки, чтобы получить данные из PDF-файлов, GenAI справляется со своей задачей лучше!

AIPDF — это автономная, минималистичная, но мощная библиотека на чистом Python, которая использует мультимодальные модели искусственного интеллекта (OpenAI, llama3 или совместимые альтернативы) для извлечения данных из PDF-файлов и преобразования их в различные форматы, такие как Markdown или JSON.

Установка

pip install aipdf

в macOS вам нужно будет установить poppler

brew install poppler

Быстрый старт

 from aipdf import ocr

# Your OpenAI API key   
api_key = 'your_openai_api_key'

file = open ( 'somepdf.pdf' , 'rb' )
markdown_pages = ocr ( file , api_key )

Оллама

Вы можете использовать с любыми мультимодальными моделями ollama.

 ocr ( pdf_file , api_key = 'ollama' , model = "llama3.2" , base_url = 'http://localhost:11434/v1' , prompt = ...)

Любая файловая система

Мы решили передать файловый объект, потому что таким образом вы сможете гибко использовать его с любым типом файловой системы, s3, localfiles, URL-адресами и т. д.

С URL

 pdf_file = io . BytesIO ( requests . get ( 'https://arxiv.org/pdf/2410.02467' ). content )

# extract
pages = ocr ( pdf_file , api_key , prompt = "extract tables, return each table in json" )

Из S3

 s3 = boto3 . client ( 's3' , config = Config ( signature_version = 's3v4' ),
                  aws_access_key_id = access_token ,
                  aws_secret_access_key = '' , # Not needed for token-based auth
                  aws_session_token = access_token )


pdf_file = io . BytesIO ( s3 . get_object ( Bucket = bucket_name , Key = object_key )[ 'Body' ]. read ())
# extract 
pages = ocr ( pdf_file , api_key , prompt = "extract charts data, turn it into tables that represent the variables in the chart" )

Почему AIPDF?

Простота : AIPDF предоставляет простую функцию, требует минимальной установки, зависимостей и настройки.
Гибкость : извлечение данных в Markdown, JSON, HTML, YAML, любой другой формат файла и схему.
Сила искусственного интеллекта : использует самые современные мультимодальные модели (gpt, лама и т. д.).
Настраиваемость : адаптируйте процесс извлечения к вашим конкретным потребностям с помощью настраиваемых подсказок.
Эффективность : использует параллельную обработку для более быстрого извлечения многостраничных PDF-файлов.