RAG下載 - RAG源代碼下載

中文(繁体)

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

首頁>編程相關>其他源碼

RAG

其他源碼

Version 0.0.17

下載

在抹布中使用pymupdf（檢索儀）聊天機器人環境

該存儲庫包含示例，顯示瞭如何將pymupdf用作基於抹布的聊天機器人的數據提要。

示例包括啟動聊天機器人的腳本 - 在REPP模式下作為簡單的CLI程序或基於瀏覽器的GUI。聊天機器人腳本遵循此一般結構：

提取文本：使用pymupdf從一個或多個PDF中提取文本。根據特定要求，這可能是所有文本，或者僅包含在表，目錄等中的文本。通常將其實現為一個或多個由以下任何事件調用的一個或多個python函數- 實現實際的聊天機器人功能。
索引提取的文本：索引提取的文本以有效檢索。該索引將充當聊天機器人的知識庫。
查詢處理：當用戶提出問題時，處理查詢以確定響應所需的關鍵信息。
檢索相關信息：搜索您的索引知識庫，以獲取與用戶查詢有關的最相關信息。
生成響應：使用生成模型根據檢索到的信息生成響應。

安裝

PYTHON python package pypi pymupdf4llm（也有一個別名pdf4llm）能夠以降價格式（github兼容）將pdf頁面轉換為文本字符串。這包括一致且集成的視圖中的標准文本以及基於表的文本- 在抹佈設置中尤其重要的功能。

$ pip install -U pymupdf4llm

如果需要，此命令將自動安裝pymupdf。

然後在腳本中

 import pymupdf4llm

md_text = pymupdf4llm . to_markdown ( "input.pdf" )

# now work with the markdown text, e.g. store as a UTF8-encoded file
import pathlib
pathlib . Path ( "output.md" ). write_bytes ( md_text . encode ())

也可以提供Pymupdf Document ，而不是上述文件名字符串。默認情況下，將處理PDF中的所有頁面。如果需要，則可以使用參數pages=[...]提供要考慮的基於零的頁碼的列表。

Markdown文本創建現在還處理多列頁面。

要創建小塊文本（而不是為整個文檔生成一個大字符串），可以使用新的（v0.0.2）選項page_chunks=True 。 .to_markdown("input.pdf", page_chunks=True)將是python詞典的列表，每個頁面一個。

版本0.0.2中也是圖像的可選提取和矢量圖形：使用參數write_images=True 。 Will將PNG圖像存儲在文檔的文件夾中，而Markdown文本將適當地指它們。圖像命名為"input.pdf-page_number-index.png" 。

文檔和API

文件

API

文檔支持

雖然PDF是迄今為止在全球範圍內最重要的文檔格式，但值得一提的是，所有示例和助手腳本都以相同的方式工作，並且在所有受支持的文件類型中都沒有更改。

因此，對於Xps文檔或電子書，只需提供文件名作為"input.mobi"而其他所有內容都會像以前一樣工作。

關於pymupdf

Pymupdf向MUPDF，輕量級PDF ， XPS和電子書查看器，渲染器和工具包添加了Python綁定和抽象。 Pymupdf和MUPDF均由Artifex Software，Inc。維護和開發。

Pymupdf的首頁位於Github上。

社區

在此處加入我們的DISCORD ：#PYMUPDF。

許可證和版權

PYMUPDF可根據開源AGPL和商業許可協議獲得。如果確定無法滿足AGPL的要求，請聯繫Artifex，以獲取有關商業許可證的更多信息。

展開

附加信息

版本 Version 0.0.17
類型其他源碼
更新時間 2025-02-02
大小 171.39KB
來自於 Github

相關應用

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
SmartTube

其他源碼

24.71 Stable
Sunamu

其他源碼

Release 2.2.0
waymo open dataset

其他源碼

December 2023 Update
wp functions

其他類別

1.0.0
termwind

其他類別

v2.3.0

相關資訊全部