Sycamore 是一款開源、人工智慧驅動的文件處理引擎,適用於 ETL、RAG、基於 LLM 的應用程式以及非結構化資料分析。 Sycamore 可以分區和豐富各種文件類型,包括報告、簡報、文字記錄、手冊等。它可以分析和分割複雜的文檔,例如帶有嵌入表格、圖形、圖表和其他資訊圖表的 PDF 和圖像。查看範例筆記本。
在處理文件時,Sycamore 利用 Aryn DocParse(以前稱為 Aryn 分區服務),這是一種無伺服器、GPU 驅動的 API,用於分割和標記文件、執行 OCR、提取表格和映像等。它利用Aryn 最先進的開源深度學習DETR AI 模型,該模型經過超過80k 企業文件的訓練,與替代系統相比,它可以使混合搜尋或RAG 的資料分塊準確率提高6 倍,召回率提高2倍。您可以在此處免費註冊,或選擇在本地運行 Aryn Partitioner。
Aryn DocParse 取得文件並傳回 JSON 格式的分割區輸出,您可以使用 Sycamore 進行其他資料擷取、豐富、轉換、清理和載入到下游資料庫中。您可以選擇與這些轉換一起使用的 LLM。
Sycamore 能夠可靠地載入您的向量資料庫和混合搜尋引擎,包括 OpenSearch、ElasticSearch、Pinecone、DuckDB、Qdrant 和 Weaviate,以及更高品質的資料。
Sycamore 框架圍繞著可擴展且強大的文件處理抽象(稱為 DocSet)構建,並包含 Python 中用於資料處理、豐富和清理的強大高級轉換。 DocSet 還封裝了可擴展的資料處理技術,消除了可靠加載塊的無差別繁重工作。 DocSets 的函數式程式設計方法可讓您快速自訂和試驗分塊,以獲得更高品質的 RAG 結果。
Aryn DocParse(以前稱為 Aryn 分區服務)簡介
Sycamore 目前在 Linux 和 Mac OS 上運行。要安裝,請運行:
pip install sycamore-ai
Sycamore 透過 Python 附加功能提供向量資料庫的連接器。若要安裝連接器,請將其作為附加項包含在 pip 安裝中。例如,
pip install sycamore-ai[duckdb]
支援的連接器包括duckdb
、 elasticsearch
、 opensearch
、 pinecone
、 qdrant
和weaviate
。
要使用 Aryn DocParse,請在此處免費註冊並使用 API 金鑰。
查看我們的貢獻指南,以了解有關如何為 Sycamore 做出貢獻並設定開發環境的更多資訊。
↑ 返回頂部 ↑