يسلط txtmarker الضوء على النص في المستندات. يأخذ txtmarker قائمة بأزواج (الاسم والنص)، ويقوم بمسح مستند إدخال ضوئيًا ويقوم بإنشاء نسخة معدلة مع تضمين الإبرازات.
تنسيقات الملفات الحالية المدعومة:
أسهل طريقة للتثبيت هي عبر النقطة وPyPI
pip install txtmarker
يمكنك أيضًا تثبيت txtmarker مباشرة من GitHub. يوصى باستخدام بيئة Python الافتراضية.
pip install git+https://github.com/neuml/txtmarker
بايثون 3.8+ مدعوم
يحتوي دليل الأمثلة على سلسلة من الأمثلة والدفاتر التي تقدم نظرة عامة على txtmarker. انظر قائمة دفاتر الملاحظات أدناه.
دفتر | وصف | |
---|---|---|
تقديم تكستماركر | نظرة عامة على الوظائف التي يوفرها txtmarker | |
تسليط الضوء على المحولات | تسليط الضوء على AI باستخدام Transformers |
يقدم القسم التالي نظرة عامة على أدوات التمييز والأساليب/التكوينات المتاحة. راجع دفاتر الملاحظات أعلاه للحصول على أمثلة تفصيلية.
from txtmarker . factory import Factory
highlighter = Factory . create ( "pdf" )
extension : string
نوع أداة التمييز المطلوب إنشاؤها (أي pdf)
formatter : callable
تنسيق الاستعلامات وإدخال النص باستخدام هذه الطريقة. يساعد في تنظيف الملفات التي تحتوي على الكثير من الرموز والمحتويات الأخرى.
chunks : int
يقسم الاستعلامات إلى أجزاء متعددة. تم تصميم هذا لمطابقات النص الطويلة جدًا.
highlighter . highlight ( "input.pdf" , "output.pdf" , [( "name" , "text to highlight" )])
infile : string
المسار الكامل لملف الإدخال
outfile : string
المسار الكامل لملف الإخراج، أي الملف المميز
highlights : list of (string, string|regex)
قائمة العناصر المميزة. كل زوج له اسم (يمكن أن يكون لا شيء) وقيمة نصية. يمكن أن يكون النص إما سلسلة أو تعبيرًا عاديًا.