OpenContracts มีระบบไปป์ไลน์แบบแยกส่วนที่ทรงพลังสำหรับการประมวลผลเอกสาร สถาปัตยกรรมรองรับการสร้างสรรค์และการรวมตัวของตัวแยกวิเคราะห์แบบกำหนดเอง, เครื่องฝังตัวและเครื่องกำเนิดไฟฟ้าขนาดย่อ:
แต่ละส่วนประกอบไปป์ไลน์สืบทอดมาจากคลาสฐานที่กำหนดอินเตอร์เฟสที่ชัดเจน:
เรียนรู้เพิ่มเติมเกี่ยวกับ:
การออกแบบแบบแยกส่วนทำให้ง่ายต่อการเพิ่มโปรเซสเซอร์ที่กำหนดเอง - เพียงสืบทอดจากคลาสฐานที่เหมาะสมและใช้วิธีการที่ต้องการ ดูเอกสารประกอบท่อของเราสำหรับรายละเอียดเกี่ยวกับการสร้างส่วนประกอบของคุณเอง
ในขณะนี้เรารองรับรูปแบบ PDF และรูปแบบข้อความเท่านั้น (เช่น PlainText และ MD) ด้วยการแยกวิเคราะห์ใหม่ของเราเราสามารถรองรับรูปแบบสำนักงาน OOXML อื่น ๆ เช่น DOCX และ XLSX ได้อย่างง่ายดายอย่างไรก็ตามผู้ชมโอเพนซอร์สและบรรณาธิการเป็นสิ่งที่หายาก เส้นทางที่เป็นไปได้อย่างหนึ่งคือการใช้ประโยชน์จากเครื่องมือ OOXML -> MD มากมายที่มีอยู่ในขณะนี้ นี่จะเป็นทางออกที่ดีพอสมควรสำหรับเอกสารส่วนใหญ่เมื่อเราเพิ่มตัวชม markdown และ Annotator (ดูแผนงานของเรา)
ขอขอบคุณเป็นพิเศษสำหรับโครงการ Pawls ของ Allenai และ NLMatics NLM-ingestor พวกเขาเป็นผู้บุกเบิกคุณสมบัติและการไหลจำนวนมากและเราใช้รหัสในบางส่วนของแอปพลิเคชัน
NLMATICS ยังเป็นผู้สร้างและเป็นแรงบันดาลใจให้กับ Grid Extract Data ของเราและ Parsing Pipeline UI/UX:
บริษัท อยู่ข้างหน้าเวลาและในขณะที่ผลิตภัณฑ์ไม่สามารถใช้งานได้อีกต่อไป OpenContracts มีจุดมุ่งหมายที่จะใช้คุณสมบัติที่ดีที่สุดและเป็นนวัตกรรมมากที่สุดและทำให้พวกเขาเป็นโอเพ่นซอร์ส