txtmarker hebt Text in Dokumenten hervor. txtmarker nimmt eine Liste von (Name-Text-)Paaren, scannt ein Eingabedokument und erstellt eine modifizierte Version mit eingebetteten Hervorhebungen.
Unterstützte aktuelle Dateiformate:
Der einfachste Weg zur Installation ist über Pip und PyPI
pip install txtmarker
Sie können txtmarker auch direkt von GitHub installieren. Die Verwendung einer virtuellen Python-Umgebung wird empfohlen.
pip install git+https://github.com/neuml/txtmarker
Python 3.8+ wird unterstützt
Das Beispielverzeichnis enthält eine Reihe von Beispielen und Notizbüchern, die einen Überblick über txtmarker geben. Sehen Sie sich die Liste der Notizbücher unten an.
Notizbuch | Beschreibung | |
---|---|---|
Einführung von txtmarker | Übersicht über die von txtmarker bereitgestellten Funktionen | |
Hervorheben mit Transformers | KI-gesteuerte Hervorhebung mit Transformers |
Der folgende Abschnitt gibt einen Überblick über Textmarker und verfügbare Methoden/Konfigurationen. Ausführliche Beispiele finden Sie in den Notizbüchern oben.
from txtmarker . factory import Factory
highlighter = Factory . create ( "pdf" )
extension : string
Art des zu erstellenden Textmarkers (z. B. PDF)
formatter : callable
Formatiert Abfragen und Eingabetext mit dieser Methode. Hilft beim Bereinigen von Dateien mit vielen Symbolen und anderen Inhalten.
chunks : int
Teilt Abfragen in mehrere Blöcke auf. Dies ist für sehr lange Textübereinstimmungen konzipiert.
highlighter . highlight ( "input.pdf" , "output.pdf" , [( "name" , "text to highlight" )])
infile : string
Vollständiger Pfad zur Eingabedatei
outfile : string
Vollständiger Pfad zur Ausgabedatei, dh der markierten Datei
highlights : list of (string, string|regex)
Liste der Hervorhebungselemente. Jedes Paar hat einen Namen (kann „Keine“ sein) und einen Textwert. Der Text kann entweder eine Zeichenfolge oder ein regulärer Ausdruck sein.