使用モデルはハグフェイスの「BAAI/bge-base-en-v1.5」です
Docker コンテナーで Qdrant を実行するには、次の手順に従います。
Qdrant Docker イメージをプルします。
docker pull qdrant/qdrant
Qdrant コンテナを実行します。
docker run -p 6333:6333 qdrant/qdrant
スクリプトを実行する前に、必要な Python ライブラリがすべてインストールされていることを確認してください。
pip install -r requirements.txt
ingest.py スクリプトは、insurance_Handbook.pdf PDF ドキュメントを処理し、テキストからベクトル埋め込みを生成し、これらの埋め込みを Qdrant ベクトル データベースに保存します。
仕組み: PDF をロード: 指定された PDF ファイルのコンテンツを読み取ります。テキストの分割: 埋め込みを生成するために、テキストを管理可能なチャンクに分割します。コンテキストを維持するために、各チャンクがわずかに重なる場合があります。埋め込みの生成: 事前トレーニングされたモデルを使用して、各テキスト チャンクをベクトル埋め込みに変換します。 Qdrant に保存: 生成されたエンベディングとそれに対応するテキストを Qdrant ベクトル データベースに保存します。使用法: 次のコマンドを実行して、データを処理して Qdrant に取り込みます。
python ingest.py
app.py スクリプトは、Qdrant ベクトル データベースにクエリを実行し、ユーザーが指定したクエリに基づいてドキュメントを取得するために使用されます。
仕組み: クエリの埋め込み: ドキュメントの埋め込みに使用されるものと同じモデルを使用して、入力クエリをベクトル埋め込みに変換します。類似性検索: クエリの埋め込みと Qdrant に保存されている埋め込みを比較して、最も類似したドキュメントを検索します。結果を返す: 類似性スコアに基づいて、最も一致するドキュメントを取得して表示します。使用法: 次のコマンドを実行してクエリを開始します。
python app.py
Qdrant コンテナーが実行中であり、ingest.py スクリプトを使用してデータが取り込まれていることを確認してください。