RAGダウンロードRAGソースコードのダウンロード

RAG

その他のソースコード

Version 0.0.17

ダウンロード

ぼろ（検索された生成）チャットボット環境でpymupdfを使用します

このリポジトリには、RAGベースのチャットボットのデータフィードとしてPymUPDFをどのように使用できるかを示す例が含まれています。

例には、チャットボットを開始するスクリプトが含まれます。これは、REPLモードの単純なCLIプログラムまたはブラウザベースのGUIのいずれかです。チャットボットスクリプトは、この一般的な構造に従います。

テキストを抽出します：PymUPDFを使用して、1つ以上のPDFから1つ以上のページからテキストを抽出します。特定の要件に応じて、これはすべてテキストまたはテーブル、目次などに含まれるテキストのみである場合があります。これは通常、実際のチャットボット機能を実装する次のイベントのいずれかで呼び出される1つ以上のPython関数として実装されます。
抽出されたテキストのインデックス作成：抽出されたテキストをインデックスして、効率的な検索のためにインデックスします。このインデックスは、チャットボットのナレッジベースとして機能します。
クエリ処理：ユーザーが質問をしたら、クエリを処理して応答に必要な重要な情報を決定します。
関連情報の取得：ユーザーのクエリに関連する最も関連性の高い情報をインデックス作成した知識ベースを検索します。
応答の生成：生成モデルを使用して、取得した情報に基づいて応答を生成します。

インストール

Pypi pymupdf4llmのPythonパッケージ（エイリアスPDF4llmもあります）は、PDFページをMarkdown形式でテキスト文字列に変換することができます（github互換）。これには、一貫した統合ビューのテーブルベースのテキストと同様に、標準テキストと、RAG設定で特に重要な機能が含まれます。

$ pip install -U pymupdf4llm

このコマンドは、必要に応じてPymUPDFを自動的にインストールします。

その後、スクリプトで行います

 import pymupdf4llm

md_text = pymupdf4llm . to_markdown ( "input.pdf" )

# now work with the markdown text, e.g. store as a UTF8-encoded file
import pathlib
pathlib . Path ( "output.md" ). write_bytes ( md_text . encode ())

上記のファイル文字列の代わりに、PymupDF Documentを提供することもできます。デフォルトでは、PDF内のすべてのページが処理されます。必要に応じて、パラメーターpages=[...]使用して、考慮すべきゼロベースのページ番号のリストを提供できます。

Markdown Textの作成は、マルチコラムページも処理します。

ドキュメント全体に1つの大きな文字列を生成するのではなく、小さなテキストのチャンクを作成するには、新しい（v0.0.2）オプションpage_chunks=Trueを使用できます。 .to_markdown("input.pdf", page_chunks=True)の結果は、各ページに1つのPython辞書のリストになります。

また、バージョン0.0.2の新機能は、画像とベクトルグラフィックのオプションの抽出write_images=True 。 WillはドキュメントのフォルダーにPNG画像を保存し、マークダウンテキストは適切にそれらを参照します。画像は"input.pdf-page_number-index.png"のような名前が付けられています。

ドキュメントとAPI

ドキュメント

API

ドキュメントサポート

PDFは世界中で最も重要なドキュメント形式ですが、すべての例とヘルパースクリプトが同じように機能し、サポートされているすべてのファイルタイプの変更なしに機能することに言及する価値があります。

したがって、XPSドキュメントまたは電子ブックの場合、たとえば"input.mobi"としてファイル名を提供するだけで、他のすべてが以前のように機能します。

Pymupdfについて

PymupDFは、軽量のPDF 、 XPS 、および電子ブックビューアー、レンダラー、ツールキットであるMUPDFにPythonバインディングと抽象化を追加します。 PymupDFとMUPDFの両方は、Artifex Software、Inc。によって維持および開発されています。

PymupdfのホームページはGithubにあります。