txtmarker выделяет текст в документах. txtmarker берет список пар (имя, текст), сканирует входной документ и создает измененную версию со встроенными выделениями.
Текущие поддерживаемые форматы файлов:
Самый простой способ установки — через pip и PyPI.
pip install txtmarker
Вы также можете установить txtmarker прямо с GitHub. Рекомендуется использовать виртуальную среду Python.
pip install git+https://github.com/neuml/txtmarker
Поддерживается Python 3.8+
В каталоге примеров есть серия примеров и блокнотов, дающих обзор txtmarker. См. список блокнотов ниже.
Блокнот | Описание | |
---|---|---|
Представляем текстовый маркер | Обзор функциональности, предоставляемой txtmarker | |
Мелирование трансформерами | Подсветка на основе искусственного интеллекта с помощью Transformers |
В следующем разделе представлен обзор маркеров и доступных методов/конфигураций. Подробные примеры см. в блокнотах выше.
from txtmarker . factory import Factory
highlighter = Factory . create ( "pdf" )
extension : string
Тип маркера для создания (например, pdf)
formatter : callable
Форматирует запросы и вводит текст с помощью этого метода. Помогает очистить файлы с большим количеством символов и другого содержимого.
chunks : int
Разбивает запросы на несколько частей. Это предназначено для очень длинных текстовых совпадений.
highlighter . highlight ( "input.pdf" , "output.pdf" , [( "name" , "text to highlight" )])
infile : string
Полный путь к входному файлу
outfile : string
Полный путь к выходному файлу, т.е. выделенному файлу.
highlights : list of (string, string|regex)
Список выделенных элементов. Каждая пара имеет имя (может быть «Нет») и текстовое значение. Текст может быть строкой или регулярным выражением.