Sycamore は、ETL、RAG、LLM ベースのアプリケーションおよび非構造化データの分析のための、AI を活用したオープンソースのドキュメント処理エンジンです。 Sycamore は、レポート、プレゼンテーション、トランスクリプト、マニュアルなどを含む幅広い種類のドキュメントを分割して強化できます。 PDF や表、図、グラフ、その他のインフォグラフィックスが埋め込まれた画像などの複雑なドキュメントを分析してチャンク化できます。ノートブックの例を確認してください。
ドキュメントの処理に、Sycamore は、ドキュメントのセグメント化とラベル付け、OCR の実行、テーブルと画像の抽出などを行うサーバーレスの GPU 搭載 API である Aryn DocParse (以前は Aryn Partitioning Service として知られていました) を活用しています。これは、80,000 以上の企業文書でトレーニングされた Aryn の最先端のオープンソースディープラーニング DETR AI モデルを活用しており、代替システムと比較した場合、ハイブリッド検索または RAG でのデータチャンクの精度が 6 倍向上し、リコールが 2 倍向上します。ここで無料でサインアップすることも、Aryn Partitioner をローカルで実行することを選択することもできます。
Aryn DocParse はドキュメントを取得し、分割された出力を JSON で返します。また、Sycamore を使用して追加のデータ抽出、強化、変換、クリーニング、およびダウンストリーム データベースへのロードを行うことができます。これらの変換で使用する LLM を選択できます。
Sycamore は、OpenSearch、ElasticSearch、Pinecone、DuckDB、Qdrant、Weaviate などのベクター データベースとハイブリッド検索エンジンに高品質のデータを確実にロードします。
Sycamore フレームワークは、DocSet と呼ばれるドキュメント処理のためのスケーラブルで堅牢な抽象化を中心に構築されており、データ処理、エンリッチメント、およびクリーニングのための Python による強力な高レベル変換が含まれています。また、DocSet はスケーラブルなデータ処理技術をカプセル化し、チャンクを確実にロードするという未分化の重労働を排除します。 DocSets の関数型プログラミング アプローチを使用すると、チャンクを迅速にカスタマイズして実験し、より高品質な RAG 結果を得ることができます。
Aryn DocParse (以前は Aryn Partitioning Service として知られていました) の概要
Sycamore は現在、Linux および Mac OS 上で実行されます。をインストールするには、次を実行します。
pip install sycamore-ai
Sycamore は、Python エクストラを介してベクトル データベースへのコネクタを提供します。コネクタをインストールするには、pip インストールに追加としてコネクタを含めます。例えば、
pip install sycamore-ai[duckdb]
サポートされているコネクタには、 duckdb
、 elasticsearch
、 opensearch
、 pinecone
、 qdrant
、およびweaviate
が含まれます。
Aryn DocParse を使用するには、ここから無料でサインアップし、API キーを使用します。
Sycamore に貢献し、開発環境をセットアップする方法の詳細については、貢献ガイドを参照してください。
↑ トップに戻る ↑