txtmarker resalta el texto en los documentos. txtmarker toma una lista de pares (nombre, texto), escanea un documento de entrada y crea una versión modificada con resaltados incrustados.
Formatos de archivo actuales admitidos:
La forma más sencilla de instalar es mediante pip y PyPI.
pip install txtmarker
También puedes instalar txtmarker directamente desde GitHub. Se recomienda utilizar un entorno virtual Python.
pip install git+https://github.com/neuml/txtmarker
Se admite Python 3.8+
El directorio de ejemplos tiene una serie de ejemplos y cuadernos que brindan una descripción general de txtmarker. Vea la lista de cuadernos a continuación.
Computadora portátil | Descripción | |
---|---|---|
Presentamos el marcador de texto | Descripción general de la funcionalidad proporcionada por txtmarker | |
Destacando con Transformers | Resaltado impulsado por IA con Transformers |
La siguiente sección ofrece una descripción general de los resaltadores y los métodos y configuraciones disponibles. Consulte los cuadernos anteriores para ver ejemplos detallados.
from txtmarker . factory import Factory
highlighter = Factory . create ( "pdf" )
extension : string
Tipo de resaltador a crear (es decir, pdf)
formatter : callable
Da formato a las consultas y escribe texto usando este método. Ayuda con la limpieza de archivos con muchos símbolos y otro contenido.
chunks : int
Divide las consultas en varios fragmentos. Está diseñado para coincidencias de texto muy largas.
highlighter . highlight ( "input.pdf" , "output.pdf" , [( "name" , "text to highlight" )])
infile : string
Ruta completa al archivo de entrada
outfile : string
Ruta completa al archivo de salida, es decir, el archivo resaltado
highlights : list of (string, string|regex)
Lista de elementos destacados. Cada par tiene un nombre (puede ser Ninguno) y un valor de texto. El texto puede ser una cadena o una expresión regular.