Dieses Repository enthält Beispiele, die zeigen, wie PYMUPDF als Datenfeed für RAG-basierte Chatbots verwendet werden kann.
Beispiele sind Skripte, die Chatbots starten - entweder als einfache CLI -Programme im Reply -Modus oder im Browser -basierten GUIs. Chatbot -Skripte folgen dieser allgemeinen Struktur:
Das Python -Paket auf PYPI PYMUPDF4LLM (es gibt auch ein Alias PDF4llm) kann PDF -Seiten in Textzeichenfolgen im Markdown -Format (GitHub kompatibel) umwandeln. Dies umfasst Standardtext sowie Tabellenbasis in einer konsistenten und integrierten Ansicht - eine Funktion, die besonders wichtig in Lageinstellungen ist.
$ pip install -U pymupdf4llm
Dieser Befehl installiert bei Bedarf automatisch PYMUPDF.
Dann in Ihrem Skript tun
import pymupdf4llm
md_text = pymupdf4llm . to_markdown ( "input.pdf" )
# now work with the markdown text, e.g. store as a UTF8-encoded file
import pathlib
pathlib . Path ( "output.md" ). write_bytes ( md_text . encode ())
Anstelle der oben genannten Dateiname -Zeichenfolge kann man auch ein PYMUPDF Document
bereitstellen. Standardmäßig werden alle Seiten im PDF verarbeitet. Auf Wunsch können die pages=[...]
verwendet werden, um eine Liste der zu berücksichtigenden Seitennummern bereitzustellen.
Die Erstellung von Markdown-Texten verarbeitet nun auch Multi-Säulen-Seiten .
So erstellen Sie kleine Textbrocken - anstatt eine große Zeichenfolge für das gesamte Dokument zu generieren - das neue (v0.0.2) Option page_chunks=True
kann verwendet werden. Das Ergebnis von .to_markdown("input.pdf", page_chunks=True)
ist eine Liste von Python -Wörterbüchern, eine für jede Seite.
Auch neu in Version 0.0.2 ist die optionale Extraktion von Bildern und Vektorgrafiken: Verwendung von Parameter write_images=True
. Die PNG -Bilder des Dokuments speichern im Ordner des Dokuments, und der Markdown -Text bezieht sich angemessen auf sie. Die Bilder werden wie "input.pdf-page_number-index.png"
bezeichnet.
Dokumentation
API
Während PDF bei weitem das weltweit wichtigste Dokumentformat ist, lohnt es sich, zu erwähnen, dass alle Beispiele und Helfer -Skripte auf die gleiche Weise und ohne Änderung für alle unterstützten Dateitypen funktionieren.
Geben Sie für ein XPS -Dokument oder ein E -Book einfach den Dateinamen als "input.mobi"
an, und alles andere funktioniert wie zuvor.
PYMUPDF fügt MUPDF, einem leichten PDF , XPS und E -Book -Viewer, Renderer und Toolkit Python -Bindungen und -abstraktionen hinzu. Sowohl PYMUPDF als auch MUPDF werden von Artifex Software, Inc. erhalten und entwickelt.
Die Homepage von PYMUPDF befindet sich auf GitHub.
Begleiten Sie uns hier auf Discord : #pymupdf.
PYMUPDF ist gemäß Open-Source AGPL und gewerblichen Lizenzvereinbarungen erhältlich. Wenn Sie feststellen, dass Sie die Anforderungen der AGPL nicht erfüllen können, wenden Sie sich bitte an Artifex, um weitere Informationen zu einer kommerziellen Lizenz zu erhalten.