txtmarker
v1.0.0
txtmarker 突出显示文档中的文本。 txtmarker 获取(名称,文本)对的列表,扫描输入文档并创建嵌入突出显示的修改版本。
当前支持的文件格式:
最简单的安装方法是通过 pip 和 PyPI
pip install txtmarker
您还可以直接从 GitHub 安装 txtmarker。建议使用 Python 虚拟环境。
pip install git+https://github.com/neuml/txtmarker
支持Python 3.8+
示例目录包含一系列示例和笔记本,概述了 txtmarker。请参阅下面的笔记本列表。
笔记本 | 描述 | |
---|---|---|
文本标记简介 | txtmarker 提供的功能概述 | |
使用变形金刚突出显示 | 使用 Transformers 进行 AI 驱动的突出显示 |
以下部分概述了荧光笔和可用的方法/配置。有关详细示例,请参阅上面的笔记本。
from txtmarker . factory import Factory
highlighter = Factory . create ( "pdf" )
extension : string
要创建的荧光笔类型(即 pdf)
formatter : callable
使用此方法格式化查询和输入文本。帮助清理包含大量符号和其他内容的文件。
chunks : int
将查询拆分为多个块。这是专为很长的文本匹配而设计的。
highlighter . highlight ( "input.pdf" , "output.pdf" , [( "name" , "text to highlight" )])
infile : string
输入文件的完整路径
outfile : string
输出文件的完整路径,即突出显示的文件
highlights : list of (string, string|regex)
突出显示元素列表。每对都有一个名称(可以是 None)和文本值。文本可以是字符串或正则表达式。