Repositori ini berisi contoh-contoh yang menunjukkan bagaimana PYMUPDF dapat digunakan sebagai umpan data untuk chatbots berbasis RAG.
Contohnya termasuk skrip yang memulai chatbots - baik sebagai program CLI sederhana dalam mode rept atau GUI berbasis browser. Script Chatbot Ikuti struktur umum ini:
Paket Python pada PYPI PYMUPDF4LLM (ada juga alias PDF4LLM) mampu mengubah halaman PDF menjadi string teks dalam format penurunan harga (kompatibel gitub). Ini termasuk teks standar serta teks berbasis tabel dalam tampilan yang konsisten dan terintegrasi - fitur yang sangat penting dalam pengaturan kain.
$ pip install -U pymupdf4llm
Perintah ini akan secara otomatis menginstal PYMUPDF jika diperlukan.
Kemudian dalam skrip Anda lakukan
import pymupdf4llm
md_text = pymupdf4llm . to_markdown ( "input.pdf" )
# now work with the markdown text, e.g. store as a UTF8-encoded file
import pathlib
pathlib . Path ( "output.md" ). write_bytes ( md_text . encode ())
Alih -alih string nama file seperti di atas, seseorang juga dapat memberikan Document
PYMUPDF. Secara default, semua halaman di PDF akan diproses. Jika diinginkan, pages=[...]
dapat digunakan untuk memberikan daftar nomor halaman berbasis nol untuk dipertimbangkan.
Pembuatan Teks Markdown Sekarang juga memproses halaman multi-kolom .
Untuk membuat potongan teks kecil - sebagai lawan menghasilkan satu string besar untuk seluruh dokumen - opsi baru (v0.0.2) page_chunks=True
dapat digunakan. Hasil .to_markdown("input.pdf", page_chunks=True)
akan menjadi daftar kamus Python, satu untuk setiap halaman.
Juga baru dalam versi 0.0.2 adalah ekstraksi opsional dari gambar dan grafik vektor: penggunaan parameter write_images=True
. Will menyimpan gambar PNG di folder dokumen, dan teks Markdown akan merujuknya dengan tepat. Gambar dinamai seperti "input.pdf-page_number-index.png"
.
Dokumentasi
API
Sementara PDF sejauh ini merupakan format dokumen paling penting di seluruh dunia, ada baiknya menyebutkan bahwa semua contoh dan skrip penolong berfungsi dengan cara yang sama dan tanpa perubahan untuk semua jenis file yang didukung.
Jadi untuk dokumen XPS atau ebook, cukup berikan nama file misalnya sebagai "input.mobi"
dan yang lainnya akan berfungsi seperti sebelumnya.
PYMUPDF menambahkan binding dan abstraksi python ke MUPDF, PDF ringan, XPS , dan ebook viewer, renderer, dan toolkit. Baik PYMUPDF dan MUPDF dipertahankan dan dikembangkan oleh Artifex Software, Inc.
Beranda Pymupdf terletak di GitHub.
Bergabunglah dengan kami di perselisihan di sini: #pymupdf.
PYMUPDF tersedia di bawah AGPL open-source dan perjanjian lisensi komersial. Jika Anda menentukan Anda tidak dapat memenuhi persyaratan AGPL , silakan hubungi Artifex untuk informasi lebih lanjut mengenai lisensi komersial.