txtmarker
v1.0.0
txtmarker는 문서의 텍스트를 강조 표시합니다. txtmarker는 (이름, 텍스트) 쌍의 목록을 가져와 입력 문서를 스캔하고 강조 표시가 포함된 수정된 버전을 만듭니다.
현재 지원되는 파일 형식:
가장 쉬운 설치 방법은 pip와 PyPI를 이용하는 것입니다.
pip install txtmarker
GitHub에서 직접 txtmarker를 설치할 수도 있습니다. Python 가상 환경을 사용하는 것이 좋습니다.
pip install git+https://github.com/neuml/txtmarker
Python 3.8+가 지원됩니다.
예제 디렉토리에는 txtmarker의 개요를 제공하는 일련의 예제와 노트북이 있습니다. 아래 노트북 목록을 참조하세요.
공책 | 설명 | |
---|---|---|
txtmarker 소개 | txtmarker가 제공하는 기능 개요 | |
Transformers로 강조 표시 | Transformers를 사용한 AI 기반 강조 표시 |
다음 섹션에서는 하이라이터와 사용 가능한 방법/구성에 대한 개요를 제공합니다. 자세한 예는 위의 노트북을 참조하세요.
from txtmarker . factory import Factory
highlighter = Factory . create ( "pdf" )
extension : string
생성할 형광펜 유형(예: pdf)
formatter : callable
이 방법을 사용하여 쿼리 및 입력 텍스트의 형식을 지정합니다. 기호 및 기타 콘텐츠가 많은 파일을 정리하는 데 도움이 됩니다.
chunks : int
쿼리를 여러 청크로 분할합니다. 이는 매우 긴 텍스트 일치를 위해 설계되었습니다.
highlighter . highlight ( "input.pdf" , "output.pdf" , [( "name" , "text to highlight" )])
infile : string
입력 파일의 전체 경로
outfile : string
출력 파일의 전체 경로, 즉 강조 표시된 파일
highlights : list of (string, string|regex)
하이라이트 요소 목록입니다. 각 쌍에는 이름(없음일 수 있음)과 텍스트 값이 있습니다. 텍스트는 문자열이거나 정규식일 수 있습니다.