rhubarb
1.0.0
Rhubarb 是一個輕量級 Python 框架,可以使用多模式大型語言模型 (LLM) 和嵌入模型輕鬆建立文件理解應用程式。 Rhubarb 是從頭開始建立的,可與 Amazon Bedrock 和 Anthropic Claude V3 多模態語言模型以及 Amazon Titan 多模態嵌入模型搭配使用。
存取大黃文檔。
Rhubarb 可以執行多種文件處理任務,例如
✅ 記錄問答
✅ 串流文件聊天(問答)
✅ 文件總結
頁面層級摘要
完整摘要
特定頁面的摘要
串流媒體摘要
✅ 結構化資料擷取
✅ 命名實體辨識(NER)
內建50個常用實體
✅ 使用內建實體進行 PII 識別
✅ 從文件中理解圖形和圖像
解釋圖表、圖形和圖形
進行表格推理(如圖)
✅ 使用多模態嵌入模型進行向量取樣的文檔分類
✅ 記錄代幣使用以幫助追蹤成本
Rhubarb 隨附內建系統提示,可輕鬆地將其用於許多不同的文件理解用例。您可以透過傳入自己的系統提示來自訂 Rhubarb。它支援基於精確 JSON 模式的輸出生成,這使得它可以輕鬆整合到下游應用程式中。
支援 PDF、TIFF、PNG、JPG 檔案(即將支援 Word、Excel、PowerPoint、CSV、Webp、eml 檔案)
在內部執行文件到影像的轉換以使用多模式模型
適用於本機文件或儲存在 S3 的文件
支援指定多頁文件的頁碼
支援基於聊天記錄的文件聊天
支援流式和非流式模式
首先使用pip
安裝 Rhubarb 。
pip install pyrhubarb
建立boto3
會話。
導入 boto3session = boto3.Session()
本地文件
從大黃導入 DocAnalysisda = DocAnalysis(file_path="./path/to/doc/doc.pdf", boto3_session=session)resp = da.run(message="員工的名字是什麼?")resp
使用 Amazon S3 中的文件
由大黃導入 DocAnalysisda = DocAnalysis(file_path="s3://path/to/doc/doc.pdf", boto3_session=session)resp = da.run(message="員工的名字是什麼?")resp
有關更多使用範例,請參閱食譜。
請參閱貢獻以獲取更多資訊。
該專案根據 Apache-2.0 許可證獲得許可。