อังกฤษ | 简体中文
PDF-Extract-Kit: ชุดเครื่องมือแยกไฟล์ PDF คุณภาพสูง???
- เข้าร่วมกับเราบน Discord และ WeChat
31/10/2024 0.9.0 เปิดตัว นี่เป็นเวอร์ชันใหม่ที่สำคัญซึ่งมีการปรับโครงสร้างโค้ดอย่างกว้างขวาง แก้ไขปัญหาต่างๆ มากมาย ปรับปรุงประสิทธิภาพ ลดความต้องการฮาร์ดแวร์ และปรับปรุงการใช้งาน:
เพิ่มโมเดล doclayout_yolo
ที่พัฒนาขึ้นเอง ซึ่งเพิ่มความเร็วในการประมวลผลมากกว่า 10 เท่าเมื่อเปรียบเทียบกับโซลูชันดั้งเดิม ในขณะที่ยังคงรักษาเอฟเฟกต์การแยกวิเคราะห์ที่คล้ายกัน และสามารถเปลี่ยนด้วย layoutlmv3
ได้อย่างอิสระผ่านไฟล์การกำหนดค่า
อัปเกรดการแยกวิเคราะห์สูตรเป็น unimernet 0.2.1
ปรับปรุงความแม่นยำในการแยกวิเคราะห์สูตรในขณะที่ลดการใช้หน่วยความจำลงอย่างมาก
เนื่องจากการเปลี่ยนแปลงพื้นที่เก็บข้อมูลสำหรับ PDF-Extract-Kit 1.0
คุณต้องดาวน์โหลดโมเดลอีกครั้ง โปรดดูวิธีการดาวน์โหลดโมเดลสำหรับขั้นตอนโดยละเอียด
ปรับโครงสร้างโค้ดโมดูลการเรียงลำดับใหม่เพื่อใช้ตัวอ่านเค้าโครงสำหรับการอ่านการเรียงลำดับ เพื่อให้มั่นใจว่ามีความแม่นยำสูงในรูปแบบต่างๆ
ปรับโครงสร้างโมดูลการต่อย่อหน้าใหม่เพื่อให้ได้ผลลัพธ์ที่ดีในสถานการณ์แบบข้ามคอลัมน์ ข้ามหน้า ข้ามรูป และข้ามตาราง
ปรับโครงสร้างฟังก์ชันการจดจำรายการและสารบัญใหม่ ซึ่งปรับปรุงความแม่นยำของบล็อกรายการและบล็อกสารบัญอย่างมีนัยสำคัญ รวมถึงการแยกวิเคราะห์ย่อหน้าข้อความที่เกี่ยวข้อง
ปรับโครงสร้างตรรกะการจับคู่ใหม่สำหรับรูปภาพ ตาราง และข้อความอธิบาย เพิ่มความแม่นยำอย่างมากในการจับคู่คำบรรยายและเชิงอรรถกับรูปภาพและตาราง และลดอัตราการสูญเสียข้อความอธิบายให้ใกล้ศูนย์
เพิ่มการรองรับหลายภาษาสำหรับ OCR รองรับการตรวจจับและการจดจำ 84 ภาษา สำหรับรายการภาษาที่รองรับ โปรดดู รายการภาษาที่รองรับ OCR
เพิ่มตรรกะการรีไซเคิลหน่วยความจำและมาตรการเพิ่มประสิทธิภาพหน่วยความจำอื่นๆ ช่วยลดการใช้หน่วยความจำลงอย่างมาก ความต้องการหน่วยความจำสำหรับการเปิดใช้งานคุณสมบัติการเร่งความเร็วทั้งหมด ยกเว้นการเร่งความเร็วตาราง (เค้าโครง/สูตร/OCR) ลดลงจาก 16GB เป็น 8GB และความต้องการหน่วยความจำสำหรับการเปิดใช้งานคุณสมบัติการเร่งความเร็วทั้งหมดลดลงจาก 24GB เป็น 10GB
สวิตช์คุณสมบัติไฟล์การกำหนดค่าที่ได้รับการปรับปรุง เพิ่มสวิตช์การตรวจจับสูตรอิสระเพื่อปรับปรุงความเร็วและผลลัพธ์การแยกวิเคราะห์เมื่อไม่จำเป็นต้องตรวจจับสูตร
PDF-Extract-Kit 1.0 แบบรวม:
27/09/2024 เวอร์ชัน 0.8.1 เปิดตัว แก้ไขข้อบกพร่องบางประการ และจัดให้มีเวอร์ชันปรับใช้แบบโลคัลไลซ์ของการสาธิตออนไลน์และอินเทอร์เฟซส่วนหน้า
09/09/2024: เปิดตัวเวอร์ชัน 0.8.0 รองรับการปรับใช้อย่างรวดเร็วด้วย Dockerfile และเปิดตัวการสาธิตบน Huggingface และ Modelscope
30/08/2024: เวอร์ชัน 0.7.1 เปิดตัว เพิ่มตัวเลือกการจดจำตาราง tablemaster แบบพาย
2024/08/09: เวอร์ชัน 0.7.0b1 เปิดตัว กระบวนการติดตั้งที่ง่ายขึ้น เพิ่มฟังก์ชันการจดจำตาราง
08/08/2024: เวอร์ชัน 0.6.2b1 เปิดตัว ปรับปรุงปัญหาข้อขัดแย้งในการพึ่งพาและเอกสารการติดตั้ง
2024/07/05: การเปิดตัวโอเพ่นซอร์สครั้งแรก
ไมเนอร์ยู
บรรทัดคำสั่ง
เอพีไอ
ปรับใช้โครงการที่ได้รับ
คู่มือการพัฒนา
การสาธิตออนไลน์
การสาธิต CPU ด่วน
การใช้จีพียู
บทนำโครงการ
คุณสมบัติที่สำคัญ
เริ่มต้นอย่างรวดเร็ว
การใช้งาน
สิ่งที่ต้องทำ
ปัญหาที่ทราบ
คำถามที่พบบ่อย
ขอขอบคุณผู้สนับสนุนของเรา
ข้อมูลใบอนุญาต
รับทราบ
การอ้างอิง
ประวัติดารา
Magic-doc
เมจิก-html
ลิงค์
MinerU เป็นเครื่องมือที่แปลง PDF เป็นรูปแบบที่เครื่องอ่านได้ (เช่น markdown, JSON) ช่วยให้สามารถแยกเป็นรูปแบบต่างๆ ได้อย่างง่ายดาย MinerU ถือกำเนิดขึ้นในระหว่างกระบวนการก่อนการฝึกอบรมของ InternLM เรามุ่งเน้นไปที่การแก้ปัญหาการแปลงสัญลักษณ์ในวรรณกรรมทางวิทยาศาสตร์ และหวังว่าจะมีส่วนช่วยในการพัฒนาเทคโนโลยีในยุคของแบบจำลองขนาดใหญ่ เมื่อเทียบกับผลิตภัณฑ์เชิงพาณิชย์ที่มีชื่อเสียง MinerU ยังเด็กอยู่ หากคุณพบปัญหาใดๆ หรือหากผลลัพธ์ไม่เป็นไปตามที่คาดหวัง โปรดส่งปัญหาที่เป็นประเด็นและ แนบไฟล์ PDF ที่เกี่ยวข้อง
pdf_zh_cn.mp4
ลบส่วนหัว ท้ายกระดาษ เชิงอรรถ หมายเลขหน้า ฯลฯ เพื่อให้มั่นใจถึงความเชื่อมโยงทางความหมาย
ข้อความเอาต์พุตตามลำดับที่มนุษย์สามารถอ่านได้ เหมาะสำหรับรูปแบบคอลัมน์เดียว หลายคอลัมน์ และเค้าโครงที่ซับซ้อน
คงโครงสร้างของเอกสารต้นฉบับ ทั้งหัวเรื่อง ย่อหน้า รายการ ฯลฯ
แยกรูปภาพ คำอธิบายรูปภาพ ตาราง ชื่อตาราง และเชิงอรรถ
จดจำและแปลงสูตรในเอกสารเป็นรูปแบบ LaTeX โดยอัตโนมัติ
จดจำและแปลงตารางในเอกสารเป็นรูปแบบ LaTeX หรือ HTML โดยอัตโนมัติ
ตรวจจับ PDF ที่สแกนและ PDF ที่อ่านไม่ออกโดยอัตโนมัติ และเปิดใช้งานฟังก์ชัน OCR
OCR รองรับการตรวจจับและการจดจำ 84 ภาษา
รองรับรูปแบบเอาต์พุตหลายรูปแบบ เช่น multimodal และ NLP Markdown, JSON จัดเรียงตามลำดับการอ่าน และรูปแบบสื่อกลางที่หลากหลาย
รองรับผลลัพธ์การแสดงภาพที่หลากหลาย รวมถึงการแสดงภาพเค้าโครงและการแสดงภาพแบบขยาย เพื่อการยืนยันคุณภาพผลงานอย่างมีประสิทธิภาพ
รองรับทั้งสภาพแวดล้อม CPU และ GPU
เข้ากันได้กับแพลตฟอร์ม Windows, Linux และ Mac
หากคุณพบปัญหาในการติดตั้ง โปรดอ่านคำถามที่พบบ่อยก่อน
หากผลลัพธ์การแยกวิเคราะห์ไม่เป็นไปตามที่คาดไว้ โปรดดูปัญหาที่ทราบ
มีสามวิธีที่แตกต่างกันในการสัมผัสประสบการณ์ MinerU:
การสาธิตออนไลน์ (ไม่จำเป็นต้องติดตั้ง)
การสาธิต CPU ด่วน (Windows, Linux, Mac)
ลินุกซ์/วินโดวส์ + CUDA
เพื่อให้มั่นใจในความเสถียรและความน่าเชื่อถือของโครงการ เราจะปรับแต่งและทดสอบสภาพแวดล้อมฮาร์ดแวร์และซอฟต์แวร์เฉพาะในระหว่างการพัฒนาเท่านั้น สิ่งนี้ทำให้แน่ใจได้ว่าผู้ใช้ที่ปรับใช้และรันโปรเจ็กต์ตามการกำหนดค่าระบบที่แนะนำจะได้รับประสิทธิภาพที่ดีที่สุดโดยมีปัญหาความเข้ากันได้น้อยที่สุด
ด้วยการมุ่งเน้นทรัพยากรไปที่สภาพแวดล้อมหลัก ทีมของเราสามารถแก้ไขจุดบกพร่องที่อาจเกิดขึ้นและพัฒนาคุณสมบัติใหม่ได้อย่างมีประสิทธิภาพมากขึ้น
ในสภาพแวดล้อมที่ไม่ใช่ระบบหลัก เนื่องจากการกำหนดค่าฮาร์ดแวร์และซอฟต์แวร์ที่หลากหลาย รวมถึงปัญหาความเข้ากันได้ของการพึ่งพาของบุคคลที่สาม เราไม่สามารถรับประกันความพร้อมใช้งานของโครงการได้ 100% ดังนั้น สำหรับผู้ใช้ที่ต้องการใช้โปรเจ็กต์นี้ในสภาพแวดล้อมที่ไม่แนะนำ เราขอแนะนำให้อ่านเอกสารประกอบและคำถามที่พบบ่อยอย่างละเอียดก่อน ปัญหาส่วนใหญ่มีวิธีแก้ไขที่เกี่ยวข้องในคำถามที่พบบ่อยอยู่แล้ว นอกจากนี้เรายังสนับสนุนข้อเสนอแนะของชุมชนเพื่อช่วยให้เราค่อยๆขยายการสนับสนุน
ระบบปฏิบัติการ | |||||
อูบุนตู 22.04 LTS | วินโดวส์ 10/11 | macOS 11+ | |||
ซีพียู | x86_64(ไม่รองรับ ARM Linux) | x86_64(ไม่รองรับ ARM Windows) | x86_64 / arm64 | ||
หน่วยความจำ | 16GB ขึ้นไป แนะนำ 32GB+ | ||||
เวอร์ชันหลาม | 3.10 (โปรดตรวจสอบให้แน่ใจว่าได้สร้างสภาพแวดล้อมเสมือน Python 3.10 โดยใช้ conda) | ||||
เวอร์ชั่นไดรเวอร์ของ Nvidia | ล่าสุด (ไดรเวอร์ที่เป็นกรรมสิทธิ์) | ล่าสุด | ไม่มี | ||
สภาพแวดล้อม CUDA | ติดตั้งอัตโนมัติ [12.1 (ไพทอร์ช) + 11.8 (พาย)] | 11.8 (การติดตั้งด้วยตนเอง) + cuDNN v8.7.0 (การติดตั้งด้วยตนเอง) | ไม่มี | ||
รายการสนับสนุนฮาร์ดแวร์ GPU | ความต้องการขั้นต่ำ 8G+ VRAM | 3060ti/3070/4060 8G VRAM ช่วยให้สามารถใช้งานเลย์เอาต์ การเร่งความเร็วการจดจำสูตร และการเร่งความเร็ว OCR | ไม่มี | ||
การกำหนดค่าที่แนะนำ 10G+ VRAM | 3080/3080ti/3090/3090ti/4070/4070ti/4070tisuper/4080/4090 10G VRAM ขึ้นไปสามารถเปิดใช้งานเค้าโครง การจดจำสูตร การเร่งความเร็ว OCR และการเร่งความเร็วการจดจำตารางได้พร้อมกัน |
เวอร์ชันเสถียร (เวอร์ชันเสถียรตรวจสอบโดย QA):
เวอร์ชันทดสอบ (ซิงค์กับการอัปเดตสาขา dev ทดสอบคุณสมบัติใหม่):
conda สร้าง -n MinerU python=3.10 conda เปิดใช้งาน MinerU pip ติดตั้ง -U magic-pdf[เต็ม] --extra-index-url https://wheels.myhloli.com
อ้างอิงถึงวิธีการดาวน์โหลดไฟล์โมเดลสำหรับคำแนะนำโดยละเอียด
หลังจากเสร็จสิ้นขั้นตอนที่ 2. ดาวน์โหลดไฟล์น้ำหนักโมเดล สคริปต์จะสร้างไฟล์ magic-pdf.json
ในไดเร็กทอรีผู้ใช้โดยอัตโนมัติ และกำหนดค่าพาธโมเดลเริ่มต้น คุณสามารถค้นหาไฟล์ magic-pdf.json
ได้ในไดเร็กทอรีผู้ใช้ของคุณ
ไดเรกทอรีผู้ใช้สำหรับ Windows คือ "C: Usersusername" สำหรับ Linux คือ "/home/username" และสำหรับ macOS คือ "/Users/username"
คุณสามารถแก้ไขการกำหนดค่าบางอย่างในไฟล์นี้เพื่อเปิดหรือปิดใช้งานคุณลักษณะ เช่น การจดจำตาราง:
หากไม่มีรายการต่อไปนี้ใน JSON โปรดเพิ่มรายการที่จำเป็นด้วยตนเองและลบเนื้อหาความคิดเห็น (JSON มาตรฐานไม่รองรับความคิดเห็น)
{// other config"layout-config": {"model": "layoutlmv3" // โปรดเปลี่ยนเป็น "doclayout_yolo" เมื่อใช้ doclayout_yolo.},"formula-config": {"mfd_model": "yolo_v8_mfd","mfr_model ": "unimernet_small", "enable": true // คุณลักษณะการรู้จำสูตรถูกเปิดใช้งานตามค่าเริ่มต้น หากคุณต้องการปิดการใช้งาน โปรดเปลี่ยนค่าที่นี่เป็น "false".},"table-config": {"model": "tablemaster", // เมื่อใช้ structEqTable โปรดเปลี่ยนเป็น "struct_eqtable"."enable" : false, // คุณสมบัติการจดจำตารางถูกปิดใช้งานตามค่าเริ่มต้น หากคุณต้องการเปิดใช้งาน โปรดเปลี่ยนค่าที่นี่เป็น "true"."max_time": 400} -
หากอุปกรณ์ของคุณรองรับ CUDA และตรงตามข้อกำหนด GPU ของสภาพแวดล้อมหลัก คุณสามารถใช้การเร่งความเร็ว GPU ได้ โปรดเลือกคำแนะนำที่เหมาะสมตามระบบของคุณ:
อูบุนตู 22.04 LTS + GPU
วินโดวส์ 10/11 + จีพียู
การปรับใช้อย่างรวดเร็วด้วย Docker
นักเทียบท่าต้องการ GPU ที่มี VRAM อย่างน้อย 16GB และคุณสมบัติการเร่งความเร็วทั้งหมดจะถูกเปิดใช้งานตามค่าเริ่มต้น
ก่อนที่จะเรียกใช้ Docker นี้ คุณสามารถใช้คำสั่งต่อไปนี้เพื่อตรวจสอบว่าอุปกรณ์ของคุณรองรับการเร่งความเร็ว CUDA บน Docker หรือไม่
นักเทียบท่าวิ่ง --rm --gpus=nvidia/cuda ทั้งหมด:12.1.0-base-ubuntu22.04 nvidia-smi
รับ https://github.com/opendatalab/MinerU/raw/master/Dockerfile นักเทียบท่า build -t mineru:latest .docker run --rm -it --gpus=all mineru:latest /bin/bash magic-pdf --help.pdf
magic-pdf --help.pdf การใช้งาน: magic-pdf [ตัวเลือก] ตัวเลือก: -v, --version แสดงเวอร์ชันและออก -p, --path PATH ไฟล์พาธหรือไดเร็กทอรี pdf ท้องถิ่น [จำเป็น] -o, --output-dir PATH ไดเร็กทอรีท้องถิ่นเอาต์พุต [จำเป็น] -m, --method [ocr|txt|auto] วิธีการแยกวิเคราะห์ pdf ocr: การใช้ ocr เทคนิคการดึงข้อมูลจาก pdf ข้อความ: เหมาะสำหรับไฟล์ PDF แบบข้อความเท่านั้นและ ทำได้ดีกว่า ocr อัตโนมัติ: เลือกโดยอัตโนมัติ วิธีที่ดีที่สุดในการแยกวิเคราะห์ pdf จาก ocr และ txt โดยไม่ระบุวิธีการ อัตโนมัติจะถูกใช้โดย ค่าเริ่มต้น. -l, --lang TEXT ใส่ภาษาในรูปแบบ pdf (ถ้าทราบ) ไปที่ ปรับปรุงความแม่นยำของ OCR ไม่จำเป็น. คุณควร ป้อน "ตัวย่อ" ด้วย URL รูปแบบภาษา: ht tps://paddlepaddle.github.io/PaddleOCR/latest/en /ppocr/blog/multi_languages.html#5-support- languages- และ-คำย่อ -d, --debug BOOLEAN เปิดใช้งานข้อมูลการดีบักโดยละเอียดในระหว่าง การดำเนินการคำสั่ง CLI -s, --start INTEGER หน้าเริ่มต้นสำหรับการแยกวิเคราะห์ PDF เริ่มต้น จาก 0 -e, --end INTEGER หน้าสิ้นสุดสำหรับการแยกวิเคราะห์ PDF เริ่มต้นจาก 0. --help แสดงข้อความนี้และออก## แสดง versionmagic-pdf -v## บรรทัดคำสั่ง examplemagic-pdf -p {some_pdf} -o {some_output_dir} -m auto
{some_pdf}
อาจเป็นไฟล์ PDF ไฟล์เดียวหรือไดเรกทอรีที่มี PDF หลายไฟล์ ผลลัพธ์จะถูกบันทึกไว้ในไดเร็กทอรี {some_output_dir}
รายการไฟล์เอาต์พุตมีดังนี้:
├── some_pdf.md # markdown file
├── images # directory for storing images
├── some_pdf_layout.pdf # layout diagram (Include layout reading order)
├── some_pdf_middle.json # MinerU intermediate processing result
├── some_pdf_model.json # model inference result
├── some_pdf_origin.pdf # original PDF file
├── some_pdf_spans.pdf # smallest granularity bbox position information diagram
└── some_pdf_content_list.json # Rich text JSON arranged in reading order
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับไฟล์เอาท์พุต โปรดดูที่คำอธิบายไฟล์เอาท์พุต
กำลังประมวลผลไฟล์จากดิสก์ภายในเครื่อง
image_writer = DiskReaderWriter(local_image_dir)image_dir = str(os.path.basename(local_image_dir))jso_useful_key = {"_pdf_type": "", "model_list": []}pipe = UNIPipe(pdf_bytes, jso_useful_key, image_writer)pipe.pipe_classify()pipe.pipe_analyze()pipe.pipe_parse()md_content = pipe.pipe_mk_markdown(image_dir, drop_mode = "ไม่มี")
การประมวลผลไฟล์จากที่เก็บข้อมูลอ็อบเจ็กต์
s3pdf_cli = S3ReaderWriter(pdf_ak, pdf_sk, pdf_endpoint)image_dir = "s3://img_bucket/"s3image_cli = S3ReaderWriter(img_ak, img_sk, img_endpoint, parent_path=image_dir)pdf_bytes = s3pdf_cli.read(s3_pdf_path, mode=s3pdf_cli.MODE_BIN)jso_useful_key = {"_pdf_type": "", "model_list": []}pipe = UNIPipe(pdf_bytes, jso_useful_key, s3image_cli)pipe.pipe_classify()pipe.pipe_analyze()pipe.pipe_parse()md_content = pipe.pipe_mk_markdown (image_dir, drop_mode = "ไม่มี")
หากต้องการใช้งานโดยละเอียด โปรดดูที่:
demo.py วิธีการประมวลผลที่ง่ายที่สุด
magic_pdf_parse_main.py ขั้นตอนการประมวลผลโดยละเอียดเพิ่มเติม
โครงการที่ได้รับรวมถึงโครงการพัฒนารองตาม MinerU โดยนักพัฒนาโครงการและนักพัฒนาชุมชน
เช่น อินเทอร์เฟซแอปพลิเคชันที่ใช้ Gradio, RAG ที่ใช้ลามะ, การสาธิตเว็บที่คล้ายกับเว็บไซต์อย่างเป็นทางการ, ไคลเอนต์/เซิร์ฟเวอร์ที่ปรับสมดุลการโหลด GPU หลายตัวแบบน้ำหนักเบา ฯลฯ โปรเจ็กต์เหล่านี้อาจมีฟีเจอร์เพิ่มเติมและประสบการณ์ผู้ใช้ที่ดีขึ้น
สำหรับวิธีการปรับใช้เฉพาะ โปรดดูที่ Derived Project README
สิ่งที่ต้องทำ
- ลำดับการอ่านตามรุ่น
- การรับรู้ index
และ list
ในข้อความหลัก
- การจดจำตาราง
☐ การจดจำบล็อคโค้ดในข้อความหลัก
☐ การจดจำสูตรเคมี
☐ การจดจำรูปทรงเรขาคณิต
ลำดับการอ่านถูกกำหนดโดยโมเดลตามการกระจายเชิงพื้นที่ของเนื้อหาที่อ่านได้ และอาจไม่เป็นระเบียบในบางพื้นที่ภายใต้เค้าโครงที่ซับซ้อนอย่างยิ่ง
ไม่รองรับข้อความแนวตั้ง
สารบัญและรายการได้รับการยอมรับผ่านกฎ และรูปแบบรายการที่ไม่ปกติบางรูปแบบอาจไม่ได้รับการยอมรับ
รองรับส่วนหัวเพียงระดับเดียวเท่านั้น ปัจจุบันยังไม่รองรับส่วนหัวแบบมีลำดับชั้น
บล็อกโค้ดยังไม่รองรับในโมเดลโครงร่าง
หนังสือการ์ตูน อัลบั้มภาพ หนังสือเรียนประถมศึกษา และแบบฝึกหัดไม่สามารถแยกวิเคราะห์ได้ดี
การจดจำตารางอาจส่งผลให้เกิดข้อผิดพลาดในการรู้จำแถว/คอลัมน์ในตารางที่ซับซ้อน
การจดจำ OCR อาจสร้างอักขระที่ไม่ถูกต้องในรูปแบบ PDF ของภาษาที่ไม่ค่อยมีคนรู้จัก (เช่น เครื่องหมายกำกับเสียงในสคริปต์ละติน ตัวอักษรที่สับสนได้ง่ายในสคริปต์ภาษาอาหรับ)
บางสูตรอาจแสดงผลไม่ถูกต้องใน Markdown
คำถามที่พบบ่อยเป็นภาษาจีน
คำถามที่พบบ่อยเป็นภาษาอังกฤษ
ใบอนุญาต.md
ปัจจุบันโครงการนี้ใช้ PyMuPDF เพื่อให้ได้ฟังก์ชันการทำงานขั้นสูง อย่างไรก็ตาม เนื่องจากเป็นไปตามใบอนุญาต AGPL จึงอาจมีข้อจำกัดในสถานการณ์การใช้งานบางอย่าง ในการทำซ้ำในอนาคต เราวางแผนที่จะสำรวจและแทนที่ด้วยไลบรารีการประมวลผล PDF ที่ได้รับอนุญาตมากขึ้นเพื่อเพิ่มความเป็นมิตรต่อผู้ใช้และความยืดหยุ่น
PDF-Extract-Kit
โครงสร้าง EqTable
แพดเดิลOCR
PyMuPDF
โปรแกรมอ่านเค้าโครง
ตรวจจับอย่างรวดเร็ว
pdfminer.six
@misc{wang2024mineruopensourcesolutionprecise, title={MinerU: โซลูชันโอเพ่นซอร์สสำหรับการแยกเนื้อหาเอกสารที่แม่นยำ}, ผู้เขียน={Bin Wang และ Chao Xu และ Xiaomeng Zhao และ Linke Ouyang และ Fan Wu และ Zhiyuan Zhao และ Rui Xu และ Kaiwen Liu และ Yuan Qu และ Fukai Shang และ Bo Zhang และ Liqun Wei และ Zhihao Sui และ Wei Li และ Botian Shi และ Yu Qiao และ Dahua Lin และ Conghui He}, ปี={2024}, eprint={2409.18839}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2409.18839}, }@article{he2024opendatalab, title={Opendatalab: เสริมพลังปัญญาประดิษฐ์ทั่วไปด้วยชุดข้อมูลแบบเปิด}, author={He, Conghui และ Li, Wei และ Jin, Zhenjiang และ Xu, Chao และ Wang, Bin และ Lin, Dahua}, Journal= {arXiv พิมพ์ล่วงหน้า arXiv:2407.13773}, ปี={2024}}
Magic-Doc เครื่องมือแยก ppt/pptx/doc/docx/pdf ความเร็วสูง
เครื่องมือแยกหน้าเว็บแบบผสม Magic-HTML
LabelU (เครื่องมือบันทึกย่อข้อมูลหลายรูปแบบน้ำหนักเบา)
LabelLLM (แพลตฟอร์มคำอธิบายประกอบการสนทนา LLM แบบโอเพ่นซอร์ส)
PDF-Extract-Kit (ชุดเครื่องมือที่ครอบคลุมสำหรับการแตกเนื้อหา PDF คุณภาพสูง)