เราเข้าใจ PDF
Pdfminer.six เป็นชุมชนที่ดูแลทางแยกของ PDFMiner ดั้งเดิม เป็นเครื่องมือในการดึงข้อมูลจากเอกสาร PDF มุ่งเน้นไปที่การรับและวิเคราะห์ข้อมูลข้อความ Pdfminer.six แยกข้อความจากหน้าโดยตรงจากซอร์สโค้ดของ PDF นอกจากนี้ยังสามารถใช้เพื่อรับตำแหน่ง แบบอักษร หรือสีของข้อความได้อย่างแม่นยำ
มันถูกสร้างขึ้นในลักษณะโมดูลาร์เพื่อให้แต่ละส่วนประกอบของ pdfminer.six สามารถเปลี่ยนได้อย่างง่ายดาย คุณสามารถใช้ล่ามหรืออุปกรณ์เรนเดอร์ของคุณเองที่ใช้พลังของ pdfminer.six เพื่อวัตถุประสงค์อื่นนอกเหนือจากการวิเคราะห์ข้อความ
ตรวจสอบเอกสารฉบับเต็มได้ที่ Read the Docs
ติดตั้ง Python 3.8 หรือใหม่กว่า
ติดตั้ง pdfminer.six
pip install pdfminer.six
(ทางเลือก) ติดตั้งการพึ่งพาพิเศษสำหรับการแยกภาพ
pip install ' pdfminer.six[image] '
ใช้อินเทอร์เฟซบรรทัดคำสั่งเพื่อแยกข้อความจาก pdf
pdf2txt.py example.pdf
หรือใช้กับ Python
from pdfminer . high_level import extract_text
text = extract_text ( "example.pdf" )
print ( text )
อย่าลืมอ่านหลักเกณฑ์การบริจาค
พื้นที่เก็บข้อมูลนี้มีโค้ดจาก pyHanko
; ใบอนุญาตดั้งเดิมถูกรวมไว้ที่นี่