txtmarker menyorot teks dalam dokumen. txtmarker mengambil daftar pasangan (nama, teks), memindai dokumen masukan dan membuat versi modifikasi dengan sorotan tertanam.
Format file saat ini didukung:
Cara termudah untuk menginstal adalah melalui pip dan PyPI
pip install txtmarker
Anda juga dapat menginstal txtmarker langsung dari GitHub. Disarankan menggunakan Lingkungan Virtual Python.
pip install git+https://github.com/neuml/txtmarker
Python 3.8+ didukung
Direktori contoh memiliki serangkaian contoh dan buku catatan yang memberikan gambaran umum tentang txtmarker. Lihat daftar buku catatan di bawah ini.
Buku catatan | Keterangan | |
---|---|---|
Memperkenalkan txtmarker | Ikhtisar fungsi yang disediakan oleh txtmarker | |
Menyoroti dengan Transformers | Penyorotan berbasis AI dengan Transformers |
Bagian berikut memberikan ikhtisar penyorot dan metode/konfigurasi yang tersedia. Lihat buku catatan di atas untuk contoh detailnya.
from txtmarker . factory import Factory
highlighter = Factory . create ( "pdf" )
extension : string
Jenis penyorot yang akan dibuat (yaitu pdf)
formatter : callable
Memformat kueri dan memasukkan teks menggunakan metode ini. Membantu pembersihan file dengan banyak simbol dan konten lainnya.
chunks : int
Membagi kueri menjadi beberapa bagian. Ini dirancang untuk pencocokan teks yang sangat panjang.
highlighter . highlight ( "input.pdf" , "output.pdf" , [( "name" , "text to highlight" )])
infile : string
Jalur lengkap ke file masukan
outfile : string
Jalur lengkap ke file keluaran, yaitu file yang disorot
highlights : list of (string, string|regex)
Daftar elemen sorotan. Setiap pasangan memiliki nama (bisa Tidak Ada) dan nilai teks. Teksnya bisa berupa string atau ekspresi reguler.