Pathway 的AI Pipelines可讓您快速投入生產 AI 應用程序,這些應用程式使用資料來源中可用的最新知識,提供大規模的高精度 RAG 和 AI 企業搜尋。它為您提供可立即部署的LLM(大型語言模型)應用程式範本。您可以在自己的電腦上測試它們並在雲端(GCP、AWS、Azure、Render...)或本地部署。
這些應用程式與檔案系統、Google Drive、Sharepoint、S3、Kafka、PostgreSQL、即時資料 API上的資料來源連接並同步(所有新資料新增、刪除、更新)。它們不依賴需要單獨設置的基礎設施。它們包括內建資料索引,支援向量搜尋、混合搜尋和全文搜尋 - 全部在記憶體中透過快取完成。
此儲存庫中提供的應用程式範本可擴展到數百萬頁文件。其中一些是為了簡單性而優化的,有些是為了驚人的準確性而優化的。選擇最適合您的一款。您可以開箱即用地使用它,或更改管道的某些步驟 - 例如,如果您想新增新的資料來源,或將向量索引變更為混合索引,這只是一行變更。
申請表(範本) | 描述 |
---|---|
Question-Answering RAG App | 基本的端到端 RAG 應用程式。問答管道,使用所選的 GPT 模型為即時連接的資料來源(文件、Google Drive、Sharepoint 等)上的文件(PDF、DOCX 等)查詢提供答案。您也可以嘗試演示 REST 端點。 |
Live Document Indexing (Vector Store / Retriever) | RAG 的即時文件索引管道,可作為向量儲存服務。它從連接的資料來源(檔案、Google Drive、Sharepoint...)對文件(PDF、DOCX...)執行即時索引。它可以與任何前端一起使用,或者集成為 Langchain 或 Llamaindex 應用程式的檢索器後端。您也可以嘗試演示 REST 端點。 |
Multimodal RAG pipeline with GPT4o | 多模式 RAG 在解析階段使用 GPT-4o 從連接的資料來源檔案(Google Drive、Sharepoint...)中索引 PDF 和其他文件。它非常適合從資料夾中的非結構化財務文件(包括圖表和表格)中提取信息,並在文件更改或新文件到達時更新結果。 |
Unstructured-to-SQL pipeline + SQL question-answering | 一個 RAG 範例,它連接到非結構化財務資料來源(財務報告 PDF),將資料結構化為 SQL,並將其載入到 PostgreSQL 表中。它還使用 LLM 將自然語言使用者對這些財務文件的查詢轉換為 SQL 並在 PostgreSQL 表上執行查詢,從而回答使用者對這些財務文件的查詢。 |
Adaptive RAG App | 使用自適應 RAG 的 RAG 應用程序,自適應 RAG 是 Pathway 開發的技術,可在保持準確性的同時將 RAG 中的代幣成本降低多達 4 倍。 |
Private RAG App with Mistral and Ollama | 使用 Pathway、Mistral 和 Ollama demo-question-answering RAG 管道的完全私有(本地)版本。 |
Slides AI Search App | 用於檢索幻燈片的索引管道。它執行 PowerPoint 和 PDF 的多模式並維護幻燈片的即時索引。 |
這些應用程式可以作為Docker 容器運行,並公開HTTP API來連接前端。為了允許快速測試和演示,一些應用程式模板還包括連接到此 API 的可選 Streamlit UI。
這些應用程式依賴 Pathway Live Data 框架來進行資料來源同步和處理 API 請求(Pathway 是一個獨立的 Python 函式庫,內建了 Rust 引擎)。它們為您帶來了後端、嵌入、檢索、LLM 技術堆疊的簡單且統一的應用程式邏輯。無需為您的 Gen AI 應用程式整合和維護單獨的模組:向量資料庫(例如Pinecone/Weaviate/Qdrant)+快取(例如Redis)+API框架(例如Fast API) 。 Pathway 預設選擇的內建向量索引是基於閃電般快速的 uarch 函式庫,而混合全文索引則利用 Tantivy 函式庫。一切都開箱即用。
此儲存庫中的每個應用程式範本都包含一個 README.md,其中包含有關如何運行它的說明。
您也可以在 Pathway 網站上找到更多可立即運行的程式碼範本。
使用多模式 RAG 輕鬆即時地從 PDF、文件等提取和組織表格和圖表資料:
( Multimodal RAG pipeline with GPT4o
以了解整個管道的工作情況。您還可以查看Unstructured-to-SQL pipeline
以獲取也適用於非多模態模型的最小範例。)
自動即時知識挖掘和警報:
(請參閱Alerting when answers change on Google Drive
範例。)
若要提供回饋或報告錯誤,請在我們的問題追蹤器上提出問題。
我們非常鼓勵任何希望為該專案做出貢獻的人,無論是文件、功能、錯誤修復、程式碼清理、測試還是程式碼審查。如果這是您對 Github 專案的第一次貢獻,這裡有一份入門指南。
如果您想做出需要更多工作的貢獻,只需在 Pathway Discord 伺服器上舉手 (#get-help) 並讓我們知道您的方案!