ドキュメント
このパッケージの目的は、ローカル ドキュメントの複数のコレクションとの対話を可能にする、シンプルな YAML ベースの構成を備えた便利な質問応答 (RAG) システムを提供することです。基本的な LLM ベースの RAG に加えて、システムのさまざまなコンポーネントの改善にも特別な注意が払われています。ドキュメント解析の改善、ハイブリッド検索、HyDE 対応検索、チャット履歴、ディープリンク、再ランキング、埋め込みのカスタマイズ機能などです。 。このパッケージは、OpenAI からのものか、ローカルにインストールされたかにかかわらず、カスタム Large Language Model (LLM) で動作するように設計されています。
サポートされている形式
.md
- 見出し、小見出し、コード ブロックなどの論理コンポーネントに基づいてファイルを分割します。画像リンクのクリーニング、カスタム メタデータの追加などの追加機能をサポートします。.pdf
- MuPDF ベースのパーサー。.docx
- カスタム パーサー。ネストされたテーブルをサポートします。Unstructured
プリプロセッサによってサポートされています。オープンソースの gmft (https://github.com/conjuncts/gmft) または Azure Document Intelligence を介したテーブル解析のサポート。
Gemini API を使用した画像解析のオプションのサポート。
ドキュメントの複数のコレクションと、コレクションによる結果のフィルター処理をサポートします。
ドキュメント ベース全体のインデックスを再作成することなく、埋め込みを段階的に更新できる機能。
ドキュメントのフォルダーから高密度のエンベディングを生成し、ベクター データベース (ChromaDB) に保存します。
multilingual-e5-base
。instructor-large
。SPLADE (https://github.com/naver/splade) を使用してスパース エンベディングを生成し、ハイブリッド検索 (スパース + デンス) を有効にします。
セマンティック検索の「取得と再ランク付け」戦略をサポートします。こちらを参照してください。
ms-marco-MiniLM
クロスエンコーダーに加えて、より最新のbge-reranker
サポートされています。HyDE (仮説ドキュメント埋め込み) をサポート - ここを参照してください。
RAG Fusion
からインスピレーションを得たマルチクエリのサポート - https://towardsdatascience.com/forget-rag-the-future-is-rag-fusion-1147298d8ad1
質問の文脈化によるオプションのチャット履歴のサポート
埋め込みドキュメントとの対話を可能にし、次のモデルとメソッド (ローカルでホストされるものを含む) を内部的にサポートします。
OpenAI API を介した LiteLLM + Ollama との相互運用性、数百の異なるモデルをサポート (LiteLLM のモデル構成を参照)
その他の機能
ドキュメントを参照する