aipdf
v0.0.4
PDF에서 데이터를 가져오기 위해 기존 OCR이나 무거운 라이브러리를 조이면 GenAI가 더 나은 작업을 수행합니다!
AIPDF는 다중 모달 세대 AI 모델(OpenAI, llama3 또는 호환 가능한 대안)을 활용하여 PDF에서 데이터를 추출하고 이를 Markdown 또는 JSON과 같은 다양한 형식으로 변환하는 독립 실행형, 미니멀하면서도 강력한 순수 Python 라이브러리입니다.
pip install aipdf
macOS에서는 poppler를 설치해야 합니다.
brew install poppler
from aipdf import ocr
# Your OpenAI API key
api_key = 'your_openai_api_key'
file = open ( 'somepdf.pdf' , 'rb' )
markdown_pages = ocr ( file , api_key )
모든 ollama 다중 모드 모델과 함께 사용할 수 있습니다.
ocr ( pdf_file , api_key = 'ollama' , model = "llama3.2" , base_url = 'http://localhost:11434/v1' , prompt = ...)
우리는 파일 객체를 전달하기로 선택했습니다. 그렇게 하면 s3, 로컬 파일, URL 등 모든 유형의 파일 시스템에서 이를 유연하게 사용할 수 있기 때문입니다.
pdf_file = io . BytesIO ( requests . get ( 'https://arxiv.org/pdf/2410.02467' ). content )
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract tables, return each table in json" )
s3 = boto3 . client ( 's3' , config = Config ( signature_version = 's3v4' ),
aws_access_key_id = access_token ,
aws_secret_access_key = '' , # Not needed for token-based auth
aws_session_token = access_token )
pdf_file = io . BytesIO ( s3 . get_object ( Bucket = bucket_name , Key = object_key )[ 'Body' ]. read ())
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract charts data, turn it into tables that represent the variables in the chart" )
우리는 이 매우 깨끗한 상태를 유지할 것이며 단 3개의 필수 라이브러리만 사용합니다:
이 프로젝트는 MIT 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.
기여를 환영합니다! 언제든지 Pull Request를 제출해 주세요.
문제가 발생하거나 질문이 있는 경우 GitHub 저장소에서 문제를 열어주세요.
AIPDF는 PDF 데이터 추출을 간단하고 유연하며 강력하게 만듭니다. 지금 바로 사용해보시고 PDF 처리 작업 흐름을 단순화하십시오!