txtmarker met en évidence le texte dans les documents. txtmarker prend une liste de paires (nom, texte), numérise un document d'entrée et crée une version modifiée avec des surbrillances intégrées.
Formats de fichiers actuellement pris en charge :
Le moyen le plus simple d'installer est via pip et PyPI
pip install txtmarker
Vous pouvez également installer txtmarker directement depuis GitHub. L'utilisation d'un environnement virtuel Python est recommandée.
pip install git+https://github.com/neuml/txtmarker
Python 3.8+ est pris en charge
Le répertoire d'exemples contient une série d'exemples et de cahiers donnant un aperçu de txtmarker. Voir la liste des cahiers ci-dessous.
Carnet de notes | Description | |
---|---|---|
Présentation de txtmarker | Aperçu des fonctionnalités fournies par txtmarker | |
Mise en évidence avec des transformateurs | Mise en évidence basée sur l'IA avec Transformers |
La section suivante donne un aperçu des surligneurs et des méthodes/configurations disponibles. Voir les cahiers ci-dessus pour des exemples détaillés.
from txtmarker . factory import Factory
highlighter = Factory . create ( "pdf" )
extension : string
Type de surligneur à créer (ex. pdf)
formatter : callable
Formate les requêtes et saisit le texte à l’aide de cette méthode. Aide au nettoyage des fichiers contenant de nombreux symboles et autres contenus.
chunks : int
Divise les requêtes en plusieurs morceaux. Ceci est conçu pour les correspondances de texte très longues.
highlighter . highlight ( "input.pdf" , "output.pdf" , [( "name" , "text to highlight" )])
infile : string
Chemin complet vers le fichier d'entrée
outfile : string
Chemin complet vers le fichier de sortie, c'est-à-dire le fichier en surbrillance
highlights : list of (string, string|regex)
Liste des éléments marquants. Chaque paire a un nom (peut être Aucun) et une valeur de texte. Le texte peut être une chaîne ou une expression régulière.