txtmarker
v1.0.0
txtmarker はドキュメント内のテキストを強調表示します。 txtmarker は、(名前、テキスト) ペアのリストを取得し、入力ドキュメントをスキャンし、ハイライトが埋め込まれた修正バージョンを作成します。
現在サポートされているファイル形式:
最も簡単なインストール方法は、pip と PyPI を使用することです。
pip install txtmarker
txtmarker を GitHub から直接インストールすることもできます。 Python 仮想環境の使用をお勧めします。
pip install git+https://github.com/neuml/txtmarker
Python 3.8以降がサポートされています
サンプル ディレクトリには、txtmarker の概要を説明する一連のサンプルとノートブックが含まれています。以下のノートブックのリストを参照してください。
ノート | 説明 | |
---|---|---|
txtマーカーの紹介 | txtmarker が提供する機能の概要 | |
トランスフォーマーによるハイライト | Transformers による AI 主導のハイライト表示 |
次のセクションでは、ハイライターと利用可能なメソッド/設定の概要を説明します。詳細な例については、上記のノートブックを参照してください。
from txtmarker . factory import Factory
highlighter = Factory . create ( "pdf" )
extension : string
作成するハイライターのタイプ (つまり PDF)
formatter : callable
このメソッドを使用してクエリと入力テキストをフォーマットします。シンボルやその他のコンテンツが多く含まれるファイルのクリーンアップに役立ちます。
chunks : int
クエリを複数のチャンクに分割します。これは、非常に長いテキストの一致用に設計されています。
highlighter . highlight ( "input.pdf" , "output.pdf" , [( "name" , "text to highlight" )])
infile : string
入力ファイルへのフルパス
outfile : string
出力ファイル、つまり強調表示されたファイルへのフルパス
highlights : list of (string, string|regex)
ハイライト要素のリスト。各ペアには名前 (None も可) とテキスト値があります。テキストは文字列または正規表現のいずれかです。