aiwhisprダウンロード - aiwhisprソースコードのダウンロード

aiwhispr

その他のソースコード

version 0.941

ダウンロード

AIウィスパー

概要

AIWhispr は、セマンティック検索のためのベクトル埋め込みパイプラインを自動化するノー/ローコードツールです。シンプルな構成により、ファイルの読み取り、テキストの抽出、ベクトル埋め込みの作成、およびそれらのベクトルデータベースへの保存のためのパイプラインが駆動されます。

AIウィスパー

取り付けは簡単です。
設定が簡単です。
検索クエリに対してセマンティックな応答を高速に提供します。
AWS S3、Azure Blob Containers、Google Cloud Storage、ローカルディレクトリパスに保存されている複数のファイル形式 (txt、csv、pdf、docx、pptx、docx) を処理できます。
複数のベクターデータベース (Qdrant、Weaviate、Milvus、Typesense、Postgres PGVector、MongoDb - Atlas) をサポートします。

代替テキスト

接触

[email protected]

github から AIWhispr をクローンした後の環境のセットアップ

ベクターデータベースをインストールして起動します

AIWhispr には次のベクトルデータベース用のコネクタがあります。

1 クドラント

2 ミルバス

3ウィアビエイト

4 タイプセンス

5 モンゴDB

6 Postgres - PGVector

Vector データベースがインストールされ、起動されていることを確認してください。

環境変数

AIWHISPR_HOME_DIR 環境変数は、aiwhispr ディレクトリへのフルパスである必要があります。

AIWHISPR_LOG_LEVEL 環境変数は DEBUG / INFO / WARNING / ERROR に設定できます

 AIWHISPR_HOME=/<...>/aiwhispr
AIWHISPR_LOG_LEVEL=DEBUG
export AIWHISPR_HOME
export AIWHISPR_LOG_LEVEL

シェルログインスクリプトに環境変数を忘れずに追加してください。

Python パッケージをインストールする

以下のコマンドを実行します

 $AIWHISPR_HOME/shell/install_python_packages.sh

uwsgi のインストールが失敗する場合は、 gcc、 python-dev 、 python3-dev がインストールされていることを確認してください。

 sudo apt-get install gcc 
sudo apt install python-dev
sudo apt install python3-dev
pip3 install uwsgi

Streamlit アプリを使用して構成、インデックス付け、検索を行う

AIWhispr には、使い始めるのに役立つストリームリットアプリが付属しています。

ストリームリットアプリを実行する

 cd $AIWHISPR_HOME/python/streamlit
streamlit run ./Configure_Content_Site.py &

これにより、デフォルトのポート 8501 で streamlit アプリが起動し、Web ブラウザでセッションが開始されます。

セマンティック検索用にコンテンツのインデックスを作成するパイプラインを構成するには、3 つの手順があります。

コンテンツサイトの構成 : コンテンツ (ファイル) をホストする保存場所の詳細を指定します。
Vector DB の構成 : コンテンツのベクター埋め込みが保存される Vector DB の接続の詳細を指定します。
LLM サービスの構成 : コンテンツをベクトル埋め込みにエンコードするために使用される大規模な言語モデルの詳細 (SBert/OpenAI) を提供します。

1. 保存場所からファイルを読み取るように設定する

代替テキスト

[このコンテンツサイト構成を使用する] ボタンをクリックすると、デフォルト構成を続行できます。

次のステップに進み、ベクトルデータベース接続を構成します。

デフォルトの例では、セマンティック検索のために BBC のニュース記事にインデックスを付けます。

streamlit アプリは、新しい構成を開始していると想定し、ランダムな構成名を割り当てます。これを上書きして、より意味のある名前を付けることができます。構成名は一意である必要があります。空白や特殊文字を含めることはできません。

デフォルト設定では、ローカルディレクトリパス $AIWHISPR_HOME/examples/http/bbc からコンテンツが読み取られます。

これには、セマンティック検索用にインデックス付けされた BBC の 2000 以上のニュース記事が含まれています。

AWS S3、Azure Blob、Google Cloud Storage に保存されているコンテンツを読み取ることを選択できます。

プレフィックスパス設定は、検索結果の href Web リンクを作成するために使用されます。デフォルトのキーワード「aiwhisprStreamlit」を使用して続行できます。

[このコンテンツサイト構成を使用する] ボタンをクリックし、左側のサイドバーにある [Vector DB の構成] をクリックして次のステップに進み、ベクターデータベース接続を構成します。

2. ベクターDBの設定

代替テキスト

Vectordb を選択し、接続の詳細を指定します。

Vector データベースを選択すると、Vector Db の IP アドレスとポート番号がデフォルトのインストールに基づいて入力されます。これは設定に基づいて変更できます。

ベクトルデータベースは認証用に構成されている必要があります。 Qdrant、Weaviate、Typesense の場合は API キーが必要です。 Milvus の場合は、 user-id とパスワードの組み合わせを設定する必要があります。

ベクトルの次元サイズは、テキストをベクトル埋め込みとしてエンコードするために使用する予定の LLM に基づいて指定する必要があります。例: Open AI「text-embedding-ada-002」の場合、これは OpenAI 埋め込みサービスによって返されるベクトルのサイズである 1536 として構成する必要があります。

Vector データベースに作成されるデフォルトのコレクション名は aiwhisprContentChunkMap です。独自のコレクション名を指定できます。

「Use This Vector Db Config」ボタンをクリックし、左側のサイドバーの「Configure LLM Service」をクリックして次のステップに進みます。

3.LLMサービスの構成

代替テキスト

ローカルで実行される Sbert 事前トレーニング済みモデルを使用してベクトル埋め込みを作成するか、OpenAI API を使用するかを選択できます。

SBert モデルファミリの場合、使用されるデフォルトモデルは all-mpnet-base-v2 です。別の SBert モデルを指定できます。

OpenAI の場合、デフォルトの埋め込みモデルは text-embedding-ada-002 です。

デフォルトの作業ディレクトリは /tmp です

作業ディレクトリは、保存場所から読み取られる/ダウンロードされるファイルを処理するための作業ディレクトリとして使用されるローカルマシン上の場所です。ドキュメントから抽出されたテキストは、より小さいサイズ (通常は 700 ワード) に分割され、ベクトル埋め込みとしてエンコードされます。 working-dir はテキストチャンクを保存するために使用されます。

デフォルトのローカルインデックス作成ディレクトリは /tmp です。

作業ディレクトリとインデックスディレクトリに永続的なローカルディレクトリパスを指定できます。

Index-dir は、読み取る必要があるコンテンツファイルのインデックス作成リストを保存するために使用されます。 AIWhispr はインデックス作成のための複数のプロセスをサポートしており、各プロセスは独自のインデックス作成リストを使用するため、マシン上の複数の CPU を活用できます。

インデックス作成 (コンテンツの読み取り、ベクター埋め込みの作成、ベクターデータベースへの保存) に複数の CPU を活用する場合は、並列プロセスの数のテストボックスでこれを指定します。これを 1 または最大 (CPU の数/2) にすることをお勧めします。 8 CPU マシンの例では、これを 4 に設定する必要があります。AIWhispr はマルチプロセッシングを使用して Python GIL 制限を回避します。

[この LLM サービス構成を使用する] をクリックして、ベクター埋め込みパイプライン構成ファイルの最終バージョンを作成します。

構成ファイルの内容とマシン上のその場所が表示されます。

左側のサイドバーにある「構成ファイルのテスト」をクリックすると、この構成をテストできます。

4. テスト構成

ベクター埋め込みパイプライン構成ファイルの場所を示すメッセージと「Test Configfile」ボタンが表示されます。

ボタンをクリックすると、パイプライン構成をテストするプロセスが開始されます。

保管場所への接続
ベクトルデータベースに接続する
LLM サービスを使用してサンプルクエリをエンコードする

ログの最後に「NO ERRORS」というメッセージが表示され、このパイプライン構成が使用できることが示されます。

左側のサイドバーで「インデックス作成プロセスの実行」をクリックしてパイプラインを開始します。

5. インデックス作成プロセスの実行

[インデックス作成の開始] ボタンが表示されるはずです。

このボタンをクリックしてパイプラインを開始します。ログは 15 秒ごとに更新されます。

デフォルトの例では、2000 を超える BBC ニュース記事のインデックス作成に約 20 分かかります。

インデックス作成プロセスの実行中、つまり、右上に Streamlit の「実行中」ステータスが表示されている間は、このページから移動しないでください。

マシン上で grep を使用して、インデックス作成プロセスが実行されているかどうかを確認することもできます。

 ps -ef | grep python3 | grep index_content_site.py

6. セマンティック検索

セマンティック検索クエリを実行できるようになりました。

検索結果のコサイン距離と上位 3 件の PCA 分析を表示するセマンティックプロットも、テキスト検索結果とともに表示されます。

代替テキスト

拡大する

追加情報

バージョン version 0.941
タイプその他のソースコード
更新時間 2024-12-26
サイズ 10.63MB
から Github

aiwhispr

AIウィスパー

概要

接触

github から AIWhispr をクローンした後の環境のセットアップ

ベクターデータベースをインストールして起動します

環境変数

Python パッケージをインストールする

Streamlit アプリを使用して構成、インデックス付け、検索を行う

waymo open dataset

SmartTube

Sunamu

viptools for eslam

MySchedule.py

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

termwind

wp functions