ดาวน์โหลด pd3f core - ดาวน์โหลดซอร์สโค้ด pd3f core

pd3f core

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

`pd3f-core`

ทดลองใช้งานด้วยความระมัดระวัง

pd3f-core เป็นแพ็คเกจ Python เพื่อ สร้าง ข้อความต่อเนื่อง ต้นฉบับจาก PDF ด้วยโมเดลภาษา pd3f-core ถือว่า PDF ของคุณเป็นแบบข้อความหรือ OCRd อยู่แล้ว pd3f-core เป็นหัวใจสำคัญของ pd3f: ไปป์ไลน์การแยกข้อความที่ใช้ Docker เต็มรูปแบบ (รวมถึง OCR)

pd3f-core ใช้ Parsr เพื่อแบ่งไฟล์ PDF ออกเป็นบรรทัดและย่อหน้าเป็นครั้งแรก จากนั้นจะใช้แพ็คเกจ Python dehyphen เพื่อสร้างย่อหน้าใหม่ด้วยวิธีที่น่าจะเป็นไปได้มากที่สุด ความน่าจะเป็นได้มาจากการคำนวณความฉงนสนเท่ห์ด้วยแบบจำลองภาษาตามตัวละครของ Flair ยัติภังค์ที่ไม่จำเป็นจะถูกลบออก ช่องว่างหรือบรรทัดใหม่จะถูกเก็บหรือปล่อย ขึ้นอยู่กับคำที่ล้อมรอบ

ได้รับการพัฒนาสำหรับภาษาเยอรมันเป็นหลัก แต่ควรทำงานร่วมกับภาษาอื่นด้วย โครงการยังอยู่ในช่วงเริ่มต้น คาดว่าจะมีขอบหยาบและการเปลี่ยนแปลงอย่างรวดเร็ว

เอกสารประกอบ

เอกสาร API ของ pd3f-core: https://pd3f.github.io/pd3f-core/index.html

เอกสารประกอบของ pd3f (the ): https://pd3f.com/docs/

คุณสมบัติ

การละเว้นของเส้น

ตรวจสอบว่าสามารถรวมสองบรรทัดได้โดยลบยัติภังค์ ('-')

การรวมเส้นอย่างสมเหตุสมผล

ตัดสินใจระหว่างการเพิ่มช่องว่างแบบธรรมดา (' ') หรือขึ้นบรรทัดใหม่ ('n') เมื่อรวมบรรทัด

Reverse Page Break (ทดลอง)

ตรวจสอบว่าสามารถเข้าร่วมย่อหน้าสุดท้ายของหน้าและย่อหน้าแรกของหน้าถัดไปได้หรือไม่

เชิงอรรถถึงอ้างอิงท้ายเรื่อง (ทดลอง)

ในการเข้าร่วมย่อหน้า (และย้อนกลับตัวแบ่งหน้า) ให้ตรวจหาเชิงอรรถและแปลงเป็นอ้างอิงท้ายเรื่อง ในตอนนี้ เชิงอรรถจะถูกดึงไปที่ท้ายไฟล์

การขจัดความซ้ำซ้อนของ Pager Header / Footer (ทดลอง)

หากส่วนหัวหรือส่วนท้ายเหมือนกันทุกหน้า ให้แสดงเพียงครั้งเดียว ส่วนหัวจะถูกดึงไปที่จุดเริ่มต้นของเอกสารและส่วนท้ายไปยังจุดสิ้นสุด มีการใช้ฮิวริสติกบางอย่างที่ยึดตามความคล้ายคลึงกันของส่วนท้าย (ระยะห่างของ Jaccard สำหรับข้อความ และเปรียบเทียบรูปร่างที่ทับซ้อนกัน)

การติดตั้ง

pip install pd3f

หรือ

poetry add pd3f

การใช้งาน

เริ่มต้นอินสแตนซ์ Parsr ท้องถิ่น:

docker-compose up

(คุณอาจใช้ช่องสัญญาณอินสแตนซ์ Parsr ระยะไกล (สคริปต์) หรือเลือกที่อยู่ระยะไกล)

 from pd3f import extract

text , tables = extract ( file_path , tables = False , experimental = False , force_gpu = False , lang = "multi" , fast = False , parsr_location = "localhost:3001" )

คำอธิบายของพารามิเตอร์ในเอกสาร: https://pd3f.github.io/pd3f-core/export.html#pd3f.export.extract

รองรับ GPU (CUDA)

การใช้ CUDA ช่วยเพิ่มความเร็วในการประเมินด้วย Flair แต่คุณต้องมี GPU (แพง) คุณต้องตั้งค่า GPU ด้วย CUDA นี่คือคำแนะนำสำหรับ Ubuntu 18.04

ติดตั้ง conda (ผ่าน miniconda) และบทกวี
สร้างสภาพแวดล้อม conda ใหม่และเปิดใช้งาน
ติดตั้ง PyTorch ด้วย CUDA: conda install pytorch torchvision cudatoolkit=10.2 -c pytorch (ตัวอย่าง)
ติดตั้ง pd3f-core พร้อมบทกวี: poetry add pd3f

Poetry ตระหนักดีว่ามันทำงานภายใน conda virtual env ดังนั้นมันจึงไม่สร้างอันใหม่ เนื่องจากการตั้งค่า CUDA นั้นยาก ให้ติดตั้งด้วยวิธีที่ง่ายที่สุด (ด้วย conda)

พื้นหลัง

การกำหนดค่าพาร์ส

หัวใจของ pd3f-core คือเอาต์พุต JSON ของ Parsr ความคิดเห็นบางส่วนเกี่ยวกับวิธีการและเหตุผลในการเลือกบางสิ่ง เอกสารของ Parsr เกี่ยวกับโมดูลต่างๆ

Parsr มีหลายโมดูลสำหรับแบ่งย่อหน้าเป็นบางประเภท พวกเขามีการตรวจจับรายการเช่นเดียวกับการตรวจจับส่วนหัว จากประสบการณ์ของฉัน ความแม่นยำต่ำเกินไปสำหรับทั้งคู่ ดังนั้นเราจึงไม่ได้ใช้มันในตอนนี้ นอกจากนี้ยังหมายความว่าข้อความที่แยกออกมา (เอาต์พุต) ทั้งหมดเป็นแบบเรียบๆ (ไม่มีส่วนหัว มีการจัดรูปแบบที่แตกต่างกัน ฯลฯ)

เราเปิดใช้งาน Drawing + Image Detection เพราะเราอาจต้องเข้าใจว่าย่อหน้าใดตามหลังอีกย่อหน้า ซึ่งอาจเป็นประโยชน์เมื่อต้องตัดสินใจว่าจะรวมย่อหน้าหรือไม่ แต่จะหลุดเมื่อเปิดใช้งานการตั้งค่าแบบ fast

ในเอาต์พุต JSON คือฟิลด์ pageNumber สิ่งนี้มาจากโมดูลการตรวจจับหน้า ดังนั้น pageNumber จึงได้มาจากส่วนหัว/ส่วนท้ายของแต่ละหน้า ดังนั้นจึงอาจแตกต่างจากดัชนีในอาร์เรย์หน้า อย่าส่งต่อ pageNumber ในเอาต์พุต JSON

มีการใช้ words-to-line-new เช่นนี้ ไม่มีข้อผิดพลาดแต่ความแม่นยำจะลดลงหากนำไปใช้เป็นอย่างอื่น

 " words-to-line-new " ,
[
    " reading-order-detection " ,

อย่าทำ OCR ด้วย Parsr เพราะผลลัพธ์จะแย่กว่า OCRmyPDF (เพราะอย่างหลังใช้การประมวลผลภาพล่วงหน้า)

การทำงานในอนาคต / สิ่งที่ต้องทำ

ทำให้ตัวแบ่งหน้าแบบย้อนกลับทำงานได้โดยไม่ต้องใช้ฟีเจอร์ทดลอง

การพัฒนา

ติดตั้งและใช้บทกวี

ใบอนุญาต

ใบอนุญาตสาธารณะทั่วไปของ Affero 3.0

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2024-12-30
ขนาด 50MB
มาจาก Github

แอปที่เกี่ยวข้อง

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
node telegram bot api

โค้ดแหล่งที่มา AI

v0.50.0
typebot.io

โค้ดแหล่งที่มา AI

v3.1.2
python wechaty getting started

โค้ดแหล่งที่มา AI

1.0.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด

pd3f core

`pd3f-core`

เอกสารประกอบ

คุณสมบัติ

การละเว้นของเส้น

การรวมเส้นอย่างสมเหตุสมผล

Reverse Page Break (ทดลอง)

เชิงอรรถถึงอ้างอิงท้ายเรื่อง (ทดลอง)

การขจัดความซ้ำซ้อนของ Pager Header / Footer (ทดลอง)

การติดตั้ง

การใช้งาน

รองรับ GPU (CUDA)

พื้นหลัง

การกำหนดค่าพาร์ส

การทำงานในอนาคต / สิ่งที่ต้องทำ

การพัฒนา

ใบอนุญาต

mycroft core

core

โซลคอร์เวอร์ชั่นจีน

คอร์อัลฟ่า

แกน XpressEngine

เซิร์ฟเวอร์ FTP หลัก

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions