txtmarker Download - txtmarker Quellcode herunterladen

txtmarker

Anderer Quellcode

v1.0.0

Herunterladen

txtmarker hebt Text in Dokumenten hervor. txtmarker nimmt eine Liste von (Name-Text-)Paaren, scannt ein Eingabedokument und erstellt eine modifizierte Version mit eingebetteten Hervorhebungen.

Unterstützte aktuelle Dateiformate:

pdf

Installation

Der einfachste Weg zur Installation ist über Pip und PyPI

 pip install txtmarker

Sie können txtmarker auch direkt von GitHub installieren. Die Verwendung einer virtuellen Python-Umgebung wird empfohlen.

 pip install git+https://github.com/neuml/txtmarker

Python 3.8+ wird unterstützt

Beispiele

Das Beispielverzeichnis enthält eine Reihe von Beispielen und Notizbüchern, die einen Überblick über txtmarker geben. Sehen Sie sich die Liste der Notizbücher unten an.

Notizbücher

Notizbuch	Beschreibung
Einführung von txtmarker	Übersicht über die von txtmarker bereitgestellten Funktionen
Hervorheben mit Transformers	KI-gesteuerte Hervorhebung mit Transformers

Konfiguration

Der folgende Abschnitt gibt einen Überblick über Textmarker und verfügbare Methoden/Konfigurationen. Ausführliche Beispiele finden Sie in den Notizbüchern oben.

Erstellen Sie einen neuen Textmarker

 from txtmarker . factory import Factory
highlighter = Factory . create ( "pdf" )

Verlängerung

 extension : string

Art des zu erstellenden Textmarkers (z. B. PDF)

Optionale Konstruktorargumente:

Formatierer

 formatter : callable

Formatiert Abfragen und Eingabetext mit dieser Methode. Hilft beim Bereinigen von Dateien mit vielen Symbolen und anderen Inhalten.

Brocken

 chunks : int

Teilt Abfragen in mehrere Blöcke auf. Dies ist für sehr lange Textübereinstimmungen konzipiert.

Text hervorheben

 highlighter . highlight ( "input.pdf" , "output.pdf" , [( "name" , "text to highlight" )])

Infile

 infile : string

Vollständiger Pfad zur Eingabedatei

Ausgabedatei

 outfile : string

Vollständiger Pfad zur Ausgabedatei, dh der markierten Datei

Highlights

 highlights : list of (string, string|regex)

Liste der Hervorhebungselemente. Jedes Paar hat einen Namen (kann „Keine“ sein) und einen Textwert. Der Text kann entweder eine Zeichenfolge oder ein regulärer Ausdruck sein.

Expandieren

Zusätzliche Informationen