Sycamore 是一款开源、人工智能驱动的文档处理引擎,适用于 ETL、RAG、基于 LLM 的应用程序以及非结构化数据分析。 Sycamore 可以分区和丰富各种文档类型,包括报告、演示文稿、文字记录、手册等。它可以分析和分块复杂的文档,例如带有嵌入表格、图形、图表和其他信息图表的 PDF 和图像。查看示例笔记本。
在处理文档时,Sycamore 利用 Aryn DocParse(以前称为 Aryn 分区服务),这是一种无服务器、GPU 驱动的 API,用于分割和标记文档、执行 OCR、提取表格和图像等。它利用 Aryn 最先进的开源深度学习 DETR AI 模型,该模型经过超过 80k 企业文档的训练,与替代系统相比,它可以使混合搜索或 RAG 的数据分块准确率提高 6 倍,召回率提高 2 倍。您可以在此处免费注册,或选择在本地运行 Aryn Partitioner。
Aryn DocParse 获取文档并返回 JSON 格式的分区输出,您可以使用 Sycamore 进行其他数据提取、丰富、转换、清理和加载到下游数据库中。您可以选择与这些转换一起使用的 LLM。
Sycamore 能够可靠地加载您的矢量数据库和混合搜索引擎,包括 OpenSearch、ElasticSearch、Pinecone、DuckDB、Qdrant 和 Weaviate,以及更高质量的数据。
Sycamore 框架围绕可扩展且强大的文档处理抽象(称为 DocSet)构建,并包含 Python 中用于数据处理、丰富和清理的强大高级转换。 DocSet 还封装了可扩展的数据处理技术,消除了可靠加载块的无差别繁重工作。 DocSets 的函数式编程方法允许您快速自定义和试验分块,以获得更高质量的 RAG 结果。
Aryn DocParse(以前称为 Aryn 分区服务)简介
Sycamore 目前在 Linux 和 Mac OS 上运行。要安装,请运行:
pip install sycamore-ai
Sycamore 通过 Python 附加功能提供矢量数据库的连接器。要安装连接器,请将其作为附加项包含在 pip 安装中。例如,
pip install sycamore-ai[duckdb]
支持的连接器包括duckdb
、 elasticsearch
、 opensearch
、 pinecone
、 qdrant
和weaviate
。
要使用 Aryn DocParse,请在此处免费注册并使用 API 密钥。
查看我们的贡献指南,了解有关如何为 Sycamore 做出贡献并设置开发环境的更多信息。
↑ 返回顶部 ↑