تنزيل open parse - تنزيل كود مصدر open parse

open parse

شفرة المصدر الأخرى

v0.7.0

تنزيل

قم بتقطيع المستندات المعقدة بسهولة بنفس الطريقة التي يفعلها الإنسان.

يعد تقطيع المستندات مهمة صعبة تدعم أي نظام RAG. تعد النتائج عالية الجودة أمرًا بالغ الأهمية لنجاح تطبيق الذكاء الاصطناعي، إلا أن معظم المكتبات مفتوحة المصدر محدودة في قدرتها على التعامل مع المستندات المعقدة.

تم تصميم Open Parse لسد هذه الفجوة من خلال توفير مكتبة مرنة وسهلة الاستخدام قادرة على تمييز تخطيطات المستندات بصريًا وتقسيمها بشكل فعال.

كيف يختلف هذا عن موزعي التخطيط الآخرين؟

✂️ تقسيم النص

يؤدي تقسيم النص إلى تحويل الملف إلى نص خام وتقطيعه إلى شرائح.

ستفقد القدرة على تراكب القطعة بسهولة على ملف pdf الأصلي
أنت تتجاهل البنية الدلالية الأساسية للملف - تمثل العناوين والأقسام والرموز النقطية معلومات قيمة.
لا يوجد دعم للجداول والصور أو تخفيض السعر.

؟ محللو تخطيط ML

هناك بعض المكتبات الرائعة مثل محلل التخطيط.

على الرغم من أنها يمكن أن تحدد عناصر مختلفة مثل الكتل النصية والصور والجداول، إلا أنها ليست مصممة لتجميع المحتوى ذي الصلة بشكل فعال.
إنهم يركزون بشكل صارم على تحليل التخطيط - ستحتاج إلى إضافة نموذج آخر لاستخراج تخفيض السعر من الصور وجداول التحليل وعقد المجموعة وما إلى ذلك.
لقد وجدنا أن الأداء دون المستوى الأمثل في العديد من المستندات بينما يكون أيضًا ثقيلًا من الناحية الحسابية.

الحلول التجارية

بسعر عادةً ≈ 10 دولارات / 1 ألف صفحة. انظر هنا وهنا وهنا.
يتطلب مشاركة بياناتك مع البائع

أبرز

؟ مدفوعة بصريًا: يقوم Open-Parse بتحليل المستندات بصريًا للحصول على مدخلات LLM فائقة الجودة، بما يتجاوز تقسيم النص البسيط.
✍️ دعم تخفيض السعر: دعم تخفيض السعر الأساسي لتحليل العناوين والخط العريض والمائل.
دعم الجدول عالي الدقة: قم باستخراج الجداول إلى تنسيقات Markdown نظيفة بدقة تفوق الأدوات التقليدية.
أمثلة
تم تحليل الأمثلة التالية باستخدام Unitable.
قابلة للتوسيع: قم بتنفيذ خطوات ما بعد المعالجة الخاصة بك بسهولة.
بديهية: دعم محرر رائع. الانتهاء في كل مكان. وقت أقل في التصحيح.
سهل: مصمم ليكون سهل الاستخدام والتعلم. وقت أقل في قراءة المستندات.

مثال

مثال أساسي

 import openparse

basic_doc_path = "./sample-docs/mobile-home-manual.pdf"
parser = openparse . DocumentParser ()
parsed_basic_doc = parser . parse ( basic_doc_path )

for node in parsed_basic_doc . nodes :
    print ( node )

؟ جرب نموذج دفتر الملاحظات هنا

مثال على المعالجة الدلالية

إن تقطيع المستندات يدور بشكل أساسي حول تجميع العقد الدلالية المتشابهة معًا. ومن خلال تضمين نص كل عقدة، يمكننا بعد ذلك تجميعها معًا بناءً على تشابهها.

 from openparse import processing , DocumentParser

semantic_pipeline = processing . SemanticIngestionPipeline (
    openai_api_key = OPEN_AI_KEY ,
    model = "text-embedding-3-large" ,
    min_tokens = 64 ,
    max_tokens = 1024 ,
)
parser = DocumentParser (
    processing_pipeline = semantic_pipeline ,
)
parsed_content = parser . parse ( basic_doc_path )

؟ عينة من دفتر الملاحظات هنا

تسلسل النتائج

يستخدم pydantic تحت الغطاء حتى تتمكن من إجراء تسلسل للنتائج باستخدامه

 parsed_content . dict ()

# or to convert to a valid json dict
parsed_content . json ()

متطلبات

بايثون 3.8+

التعامل مع ملفات PDF:

pdfminer.six مفتوح المصدر بالكامل.

استخراج الجداول:

يحتوي PyMuPDF على بعض وظائف الكشف عن الجدول. يرجى الاطلاع على ترخيصهم.
محول الجدول هو نهج التعلم العميق.
Unitable هو نهج آخر يعتمد على المحولات مع أداء متطور .

تثبيت

1. المكتبة الأساسية

 pip install openparse

تمكين دعم التعرف الضوئي على الحروف :

سيحتوي PyMuPDF بالفعل على كل المنطق لدعم وظائف التعرف الضوئي على الحروف. ولكنه يحتاج أيضًا إلى بيانات دعم اللغة الخاصة بـ Tesseract، لذلك لا يزال تثبيت Tesseract-OCR مطلوبًا.

يجب الإبلاغ عن موقع مجلد دعم اللغة إما عن طريق تخزينه في متغير البيئة "TESSDATA_PREFIX"، أو كمعلمة في الوظائف القابلة للتطبيق.

لذا، للحصول على وظيفة التعرف الضوئي على الحروف (OCR) بشكل فعال، تأكد من إكمال قائمة التحقق هذه:

قم بتثبيت تيسيراكت.
حدد موقع مجلد دعم اللغة الخاص بـ Tesseract. عادةً ستجده هنا:
- ويندوز: C:/Program Files/Tesseract-OCR/tessdata
- أنظمة يونكس: /usr/share/tesseract-ocr/5/tessdata
- macOS (مثبت عبر Homebrew):
  - التثبيت القياسي: /opt/homebrew/share/tessdata
  - التثبيت الخاص بالإصدار: /opt/homebrew/Cellar/tesseract/<version>/share/tessdata/
قم بتعيين متغير البيئة TESSDATA_PREFIX
- ويندوز: setx TESSDATA_PREFIX "C:/Program Files/Tesseract-OCR/tessdata"
- أنظمة يونكس: declare -x TESSDATA_PREFIX=/usr/share/tesseract-ocr/5/tessdata
- macOS (مثبت عبر Homebrew): export TESSDATA_PREFIX=$(brew --prefix tesseract)/share/tessdata

ملاحظة: في أنظمة Windows، يجب أن يحدث هذا خارج Python – قبل بدء البرنامج النصي الخاص بك. مجرد التلاعب بـ os.environ لن ينجح!

2. الكشف عن جدول تعلم الآلة (اختياري)

يوفر هذا المستودع ميزة اختيارية لتحليل المحتوى من الجداول باستخدام مجموعة متنوعة من نماذج التعلم العميق.

 pip install "openparse[ml]"

ثم قم بتحميل نموذج الأوزان مع

 openparse-download

يمكنك تشغيل التحليل بما يلي.

 parser = openparse . DocumentParser (
        table_args = {
            "parsing_algorithm" : "unitable" ,
            "min_table_confidence" : 0.8 ,
        },
)
parsed_nodes = parser . parse ( pdf_path )

لاحظ أننا نستخدم حاليًا محولات الجدول لجميع اكتشافات الجدول ونجد أن أدائها دون المستوى. يؤثر هذا سلبًا على النتائج النهائية للوحدة. إذا كنت على دراية بنموذج أفضل، فيرجى فتح مشكلة - ذكر الفريق المتحد أنه قد يضيف هذا قريبًا أيضًا.