txtmarker
v1.0.0
txtmarker 反白顯示文件中的文字。 txtmarker 取得(名稱,文字)對的列表,掃描輸入文件並建立嵌入突出顯示的修改版本。
目前支援的文件格式:
最簡單的安裝方法是透過 pip 和 PyPI
pip install txtmarker
您也可以直接從 GitHub 安裝 txtmarker。建議使用 Python 虛擬環境。
pip install git+https://github.com/neuml/txtmarker
支援Python 3.8+
範例目錄包含一系列範例和筆記本,概述了 txtmarker。請參閱下面的筆記本清單。
筆記本 | 描述 | |
---|---|---|
文字標記簡介 | txtmarker 提供的功能概述 | |
使用變形金剛突出顯示 | 使用 Transformers 進行 AI 驅動的突出顯示 |
以下部分概述了螢光筆和可用的方法/配置。有關詳細範例,請參閱上面的筆記本。
from txtmarker . factory import Factory
highlighter = Factory . create ( "pdf" )
extension : string
要建立的螢光筆類型(即 pdf)
formatter : callable
使用此方法格式化查詢和輸入文字。幫助清理包含大量符號和其他內容的檔案。
chunks : int
將查詢拆分為多個區塊。這是專為很長的文字匹配而設計的。
highlighter . highlight ( "input.pdf" , "output.pdf" , [( "name" , "text to highlight" )])
infile : string
輸入檔案的完整路徑
outfile : string
輸出文件的完整路徑,即突出顯示的文件
highlights : list of (string, string|regex)
反白顯示元素列表。每對都有一個名稱(可以是 None)和文字值。文字可以是字串或正規表示式。