txtmarker เน้นข้อความในเอกสาร txtmarker รับรายการคู่ (ชื่อ, ข้อความ) สแกนเอกสารอินพุต และสร้างเวอร์ชันที่แก้ไขพร้อมไฮไลต์ที่ฝังอยู่
รองรับรูปแบบไฟล์ปัจจุบัน:
วิธีติดตั้งที่ง่ายที่สุดคือผ่าน pip และ PyPI
pip install txtmarker
คุณยังสามารถติดตั้ง txtmarker ได้โดยตรงจาก GitHub แนะนำให้ใช้ Python Virtual Environment
pip install git+https://github.com/neuml/txtmarker
รองรับ Python 3.8+
ไดเร็กทอรีตัวอย่างมีชุดตัวอย่างและสมุดบันทึกที่ให้ภาพรวมของ txtmarker ดูรายการโน้ตบุ๊กด้านล่าง
โน๊ตบุ๊ค | คำอธิบาย | |
---|---|---|
ขอแนะนำ txtmarker | ภาพรวมฟังก์ชันการทำงานจาก txtmarker | |
ไฮไลท์ด้วย Transformers | การไฮไลต์ที่ขับเคลื่อนด้วย AI ด้วย Transformers |
ส่วนต่อไปนี้จะให้ภาพรวมของปากกาเน้นข้อความและวิธีการ/การกำหนดค่าที่ใช้ได้ ดูสมุดบันทึกด้านบนสำหรับตัวอย่างโดยละเอียด
from txtmarker . factory import Factory
highlighter = Factory . create ( "pdf" )
extension : string
ประเภทของปากกาเน้นข้อความที่จะสร้าง (เช่น pdf)
formatter : callable
จัดรูปแบบแบบสอบถามและป้อนข้อความโดยใช้วิธีนี้ ช่วยในการล้างไฟล์ที่มีสัญลักษณ์และเนื้อหาอื่นๆ มากมาย
chunks : int
แยกแบบสอบถามออกเป็นหลายส่วน ซึ่งออกแบบมาเพื่อการจับคู่ข้อความที่ยาวมาก
highlighter . highlight ( "input.pdf" , "output.pdf" , [( "name" , "text to highlight" )])
infile : string
เส้นทางแบบเต็มไปยังไฟล์อินพุต
outfile : string
เส้นทางแบบเต็มไปยังไฟล์เอาต์พุต เช่น ไฟล์ที่ไฮไลต์
highlights : list of (string, string|regex)
รายการองค์ประกอบไฮไลท์ แต่ละคู่มีชื่อ (สามารถเป็นไม่มีได้) และค่าข้อความ ข้อความอาจเป็นสตริงหรือนิพจน์ทั่วไปก็ได้