web augmented generationダウンロード - web augmented generationソースコードのダウンロード

web augmented generation

AI ソースコード

v1.2.1 - ? Semantic Chunk Matching

ダウンロード

Web 拡張生成

この Node.js アプリケーションは、さまざまな LLM プロバイダーと SearXNG からの Web 検索結果を使用して Web 拡張生成を実行します。

によって保守されています

特徴

最適な Web 検索のためにユーザーのクエリを言い換えます
SearXNG を使用して Web を検索します
検索結果からコンテンツを取得して要約します
OpenAI 互換の API 呼び出しを介してさまざまな LLM プロバイダーを使用して応答を生成します
リアルタイム出力のストリーミング応答をサポート
プロセスに関する詳細情報をログに記録します
コンテンツの類似性チェックと反復検出を実装します。
インタラクティブなCLIを搭載
包括的なエラー処理とログ記録が含まれます
複数の LLM プロバイダー (Ollama、togetter.ai、llama.cpp) をサポート

スクリーンショット

前提条件

Node.js (バージョン 16 以降)
npm (ノードパッケージマネージャー)
ローカルまたはリモートで実行される LLM プロバイダー (または OpenAI API 呼び出しと互換性のある任意の LLM 推論サービス)
SearXNG インスタンスへのアクセス

設定

リポジトリのクローンを作成します。

 git clone https://github.com/jparkerweb/web-augmented-generation.git
cd web-augmented-generation

依存関係をインストールします。
```
 npm ci
```
.env.exampleファイルを.envにコピーします。
```
 cp .env.example .env
```
.envファイルを編集し、必要に応じて値を更新します。

 # #####################
# # General Settings ##
# #####################
NUM_URLS = 10                                                           # Number of URLs to fetch
SEARXNG_URL = https://searx.be/                                         # URL of the SearXNG server
SEARXNG_URL_EXTRA_PARAMETER = "key=optional_auth_key_here&language=en"  # Extra parameter for SearXNG URL
SEARXNG_FORMAT = html                                                   # Format for SearXNG results (html or json)
FETCH_TIMEOUT_MS = 5000                                                 # Timeout for fetching URLs
DISABLE_SSL_VALIDATION = true                                           # Whether to disable SSL validation

# #################
# # LLM Settings ##
# #################
LLM_STREAM_RESPONSE = true                             # Whether to stream the LLM response

# Ollama Local Configuration
LLM_BASE_URL = http://localhost:11434/v1               # Base URL for the LLM API (OpenAI format)
LLM_API_KEY = ollama!!!                                # API key for the LLM (use 'ollama' for Ollama)
LLM_MODEL = llama3.2:1b                                # Model to use with the LLM API

# ###################################
# # Scraped Page Content Settings ##
# ###################################

# Semantic Chunking Settings
CHUNK_CONTENT = true                                   # Enable semantic chunking for better quality answers
CHUNK_CONTENT_USE_HYBRID_FALLBACK = true               # Enable hybrid mode to fallback to summarization if no chunks found
# # The following parameters are only used by the `chunk-match` library (if CHUNK_CONTENT is set to true)
CHUNK_CONTENT_MAX_RESULTS = 10
CHUNK_CONTENT_MIN_SIMILARITY = 0.375
CHUNK_CONTENT_MAX_TOKEN_SIZE = 500
CHUNK_CONTENT_SIMILARITY_THRESHOLD = 0.4
CHUNK_CONTENT_DYNAMIC_THRESHOLD_LOWER_BOUND = 0.3
CHUNK_CONTENT_DYNAMIC_THRESHOLD_UPPER_BOUND = 0.5
CHUNK_CONTENT_NUM_SIMILARITY_SENTENCES_LOOKAHEAD = 3
CHUNK_CONTENT_COMBINE_CHUNKS = true
CHUNK_CONTENT_COMBINE_CHUNKS_SIMILARITY_THRESHOLD = 0.5
CHUNK_CONTENT_ONNX_EMBEDDING_MODEL = " Xenova/all-MiniLM-L6-v2 "
CHUNK_CONTENT_DTYPE = " q8 "

# Raw Content Settings (used when CHUNK_CONTENT=false)
WEB_PAGE_CONTENT_MAX_LENGTH = 1000                     # Maximum length of raw page content to send to LLM

代替の LLM プロバイダー構成:

 # together.ai Configuration
LLM_BASE_URL = https://api.together.xyz/v1
LLM_API_KEY = xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
LLM_MODEL = meta-llama/Llama-3.2-3B-Instruct-Turbo

# llama.cpp Configuration
LLM_BASE_URL = http://localhost:8080/v1
LLM_API_KEY = not-needed
LLM_MODEL = not-needed

# OpenRouter Configuration
LLM_BASE_URL = https://openrouter.ai/api/v1
LLM_API_KEY = xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
LLM_MODEL = google/gemini-pro-1.5-exp

# Google AI Studio Configuration
LLM_BASE_URL = https://generativelanguage.googleapis.com/v1beta/openai/
LLM_API_KEY = xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
LLM_MODEL = gemini-exp-1121

構成には以下が含まれます。

Web 検索とコンテンツ取得の一般設定
複数のプロバイダーをサポートする LLM プロバイダー設定
セマンティックチャンキングオプションを使用したコンテンツ処理設定
未加工コンテンツ処理パラメータ

LLM 構成

このアプリケーションは、言語モデルの対話に OpenAI API 形式を使用します。 Ollama または他の OpenAI 互換 API と連携するように構成できます。設定方法は次のとおりです。

オラマの場合:

Ollama が.envファイルで指定された URL で実行されていることを確認してください。
.envファイルに次の変数を設定します。
```
 LLM_BASE_URL=http://localhost:11434/v1
LLM_API_KEY=ollama
LLM_MODEL=llama3.2:1b
```
llama3.2:1bを、Ollama で使用するモデルの名前に置き換えます。

OpenAI またはその他の互換性のある API の場合:

.envファイルに次の変数を設定します。
```
 LLM_BASE_URL=https://api.openai.com/v1
LLM_API_KEY=your_api_key_here
LLM_MODEL=gpt-3.5-turbo
```
your_api_key_here実際の API キーに置き換え、 gpt-3.5-turbo使用するモデルに置き換えます。

アプリケーションはこれらの設定を使用して、クエリの言い換えや応答の生成などのタスクのために言語モデルへの API 呼び出しを行います。

使用法

クエリを使用して、またはクエリを使用せずにアプリケーションを実行します。

 node main.js "Your question or prompt here"

または、よりインタラクティブなエクスペリエンスを得るには、ask スクリプトを使用します。

 node ask.js

クエリを指定しない場合、アプリケーションはクエリの入力を求めるプロンプトを表示します。

アプリケーションは次のことを行います。

より良い検索結果を得るためにクエリを言い換えます
SearXNG を使用して Web を検索する
検索結果からコンテンツを取得して要約する
情報の重複を避けるためにコンテンツの類似性をチェックする
構成された LLM を使用して、Web ソースの情報を組み込んだ応答を生成します。
インタラクティブなカウントダウンタイマーでリアルタイムの進行状況を表示
プロセスの詳細をlog.txtに記録します。

生成された応答はコンソールに表示され、ログファイルに追加されます。

エラー処理

実行中にエラーが発生した場合は、プロジェクトディレクトリのerror_log.txtに記録されます。

ファイル

main.js : メインアプリケーションロジック
.env : 設定ファイル ( .env.exampleから作成)
log.txt : 各実行の詳細ログ
error_log.txt : エラーログ (エラーが発生した場合に作成されます)
completion_flag.txt : プロセスが正常に完了したときに作成されます

注記

このアプリケーションは、Web スクレイピングと AI によって生成されたコンテンツを使用します。アクセスしている Web サイトと使用している AI モデルの利用規約を必ず遵守してください。

SearXNG をローカルで実行する (Docker)

Docker を使用してローカルで SearXNG を実行する場合は、次の手順に従います。

最新の SeaXNG Docker イメージをプルします。
```
 docker pull searxng/searxng
```
SearXNG 構成用のディレクトリを作成します。
```
 mkdir searxng-config
```
searxng-config ディレクトリに settings.yml ファイルを作成します。
```
 touch searxng-config/settings.yml
```
settings.yml ファイルを編集して、「json」が「formats」リストに含まれていることを確認します。
```
 nano searxng-config/settings.yml
```
次の行を追加または変更します。
```
 search :
  formats :
    - html
    - json
```

SearXNG Docker コンテナを実行します。

 docker run -d 
  -v $(pwd)/searxng-config:/etc/searxng 
  -p 8787:8080 
  -e BASE_URL=http://localhost:8787/ 
  -e INSTANCE_NAME=my-searxng 
  searxng/searxng

http://localhost:8787でローカルの SearXNG インスタンスにアクセスします。
ローカルの SearXNG インスタンスを使用するように .env ファイルを更新します。
```
 SEARXNG_URL=http://localhost:8787
```

これで、JSON 出力が有効になったポート 8787 でローカルの SearXNG インスタンスが実行され、このアプリケーションで使用できるようになりました。

設定オプション

SEARXNG_URL_EXTRA_PARAMETER : このフィールドを使用すると、SearXNG 検索 URL に追加のパラメータを追加できます。さまざまな目的に使用できます。
- 認証:SearXNG インスタンスに API キーまたはトークンが必要な場合は、ここで追加できます。例: key=your_auth_key_here
- カスタム検索パラメータ:SearXNG 固有のパラメータを追加して、検索をカスタマイズできます。例: language=en&time_range=year
- 複数のパラメータ: &使用して複数のパラメータを組み合わせることができます。例: key=your_auth_key_here&language=en
SEARXNG_FORMAT : このフィールドは、SearXNG 検索結果の形式を決定します。「html」または「json」のいずれかに設定できます。
- 'html': アプリケーションは、SearXNG からの HTML 応答を解析します。
- 'json': アプリケーションは、SearXNG からの JSON 応答を予期して解析します (デフォルト)
.env ファイルでの使用例:
```
 SEARXNG_URL_EXTRA_PARAMETER="key=abcdef123456&language=en"
SEARXNG_FORMAT=json
```
これにより、SearXNG 検索 URL に&key=abcdef123456&language=enが追加され、アプリケーションは SearXNG からの JSON 応答を期待して解析します。
DISABLE_SSL_VALIDATION : SSL 証明書の検証を無効にするには、「true」に設定します (デフォルト: false、使用には注意が必要です)
LLM_STREAM_RESPONSE : このフィールドは、LLM 応答をリアルタイムでストリーミングするか、単一の応答として返すかを決定します。
- 'true': アプリケーションは LLM 応答をストリーミングし、リアルタイムの出力を提供します。
- 'false': アプリケーションは LLM 応答を単一のテキストブロックとして返します。
.env ファイルでの使用例:
```
 LLM_STREAM_RESPONSE=true
```
これにより、LLM 応答のストリーミングが可能になり、よりインタラクティブなエクスペリエンスが提供されます。

認証キーを使用した Nginx 構成の例

(ポート 8787 で SearXNG を提供する例)

    server {
        listen       80 ;
        listen       443 ssl;
        server_name  searxng.acme.org;
        ssl_certificate         C:/some-path/fullchain.pem;
        ssl_certificate_key     C:/some-path/privkey.pem;

        # Define a variable to store the API key
        set $api_key "eXamPle__Key!!!" ;

        # Use a secure cookie to store the key
        set $key_cookie "searxng_key" ;

        # Add resolver directive
        resolver 127.0.0.1 ;

        # Debug logging
        error_log  logs/error.log debug ;

        # Check if the key is valid
        set $key_valid 0 ;
        if ( $arg_key = $api_key ) {
            set $key_valid 1 ;
        }
        if ( $cookie_searxng_key = $api_key ) {
            set $key_valid 1 ;
        }

        # Allow access to static files without key
        location /static/ {
            proxy_pass http://127.0.0.1:8787;
            proxy_buffering off ;
        }

        # Redirect all requests without a valid key to a default error page or login page
        location = / {
            if ( $key_valid = 0) {
                return 403 ;
            }
            proxy_pass http://127.0.0.1:8787;
            proxy_buffering off ;
        }

        location / {
            # Debug headers (always add these for debugging)
            add_header X-Debug-Key-Valid $key_valid always;
            add_header X-Debug-Arg-Key $arg_key always;
            add_header X-Debug-Cookie-Key $cookie_searxng_key always;

            # If the key is not valid, return 403
            if ( $key_valid = 0) {
                return 403 ;
            }

            # Set the cookie if the key is provided in the URL
            if ( $arg_key = $api_key ) {
                add_header Set-Cookie "${key_cookie}= $arg_key ; HttpOnly; Secure; SameSite=Strict; Path=/;" always;
            }

            # Proxy headers
            proxy_set_header Host $host ;
            proxy_set_header X-Real-IP $remote_addr ;
            proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for ;
            proxy_set_header X-Forwarded-Proto $scheme ;

            # Preserve the key parameter during redirects
            proxy_redirect ~^(https?://[^/]+)(.*)$ $1$2$is_args$args ;

            # Pass the request to the upstream server
            proxy_pass http://127.0.0.1:8787;
            proxy_buffering off ;
        }
    }

スクリプトを尋ねる

このプロジェクトには、コマンドラインからアプリケーションを実行するための便利なスクリプトが含まれています。これらのスクリプトはask-scriptsディレクトリにあります。

ask : Unix 系システムおよび Windows 用のユニバーサルスクリプト
ask.sh : Unix 系システム用の Bash スクリプト
ask.bat : Windowsコマンドプロンプト用のバッチスクリプト
ask.ps1 : Windows PowerShell 用の PowerShell スクリプト

使用法

これらのスクリプトをグローバルに使用するには、 ask-scriptsディレクトリをシステムの PATH に追加する必要があります。さまざまなオペレーティングシステムでの手順は次のとおりです。

窓

「スタート」メニューを開き、「環境変数」を検索します。
「システム環境変数の編集」をクリックします。
「環境変数」ボタンをクリックします
「システム環境変数」で「Path」変数を見つけて選択し、「編集」をクリックします。
「新規」をクリックし、 ask-scriptsディレクトリへのフルパスを追加します。
「OK」をクリックしてすべてのダイアログを閉じます

macOS と Linux

シェル設定ファイル (例: ~/.bashrc 、 ~/.zshrc 、または~/.bash_profile ) を開きます。
次の行を追加し、 /path/to/ask-scripts実際のパスに置き換えます。
```
 export PATH="$PATH:/path/to/ask-scripts"
```
ファイルを保存してターミナルを再起動するか、 source ~/.bashrc (または編集した適切なファイル) を実行します。

スクリプトの実行

ask-scriptsディレクトリを PATH に追加すると、次のように入力するだけでどこからでもアプリケーションを実行できます。

ask

スクリプトにより、質問またはプロンプトを入力するよう求められます。

このコマンドは、システムに適切なスクリプトを自動的に使用します。

Unix 系システム (Linux、macOS) では、bash スクリプトが使用されます。
Windows では、環境を検出し、適切なスクリプト (PowerShell またはコマンドプロンプト) を使用します。

質問やプロンプトをコマンドライン引数として指定する必要はありません。スクリプトは対話的に入力を求めます。

これらのスクリプトは、プロジェクトディレクトリに移動したり、 node main.js毎回手動で実行したりする必要がなく、アプリケーションと対話するための便利な方法を提供します。

質問スクリプト

NGINX リバースプロキシ経由で Ollama をホスティングする

Ollama を NGINX リバースプロキシの背後でホストする場合は、開始点として次の構成を使用できます。この設定には、SSL と基本的な API キー認証が含まれます。

 # -------------------------
# -- ollama.yourdomain.com --
# -------------------------
upstream ollama {
    server               127.0.0.1:11434;
}
server {
    listen 80 ;
    listen 443 ssl;
    server_name ollama.yourdomain.com;
    ssl_certificate         C:/Certbot/live/ollama.yourdomain.com/fullchain.pem;
    ssl_certificate_key     C:/Certbot/live/ollama.yourdomain.com/privkey.pem;

    location / {
        # Check if the Authorization header is present and has the correct Bearer token / API Key
        set $token "Bearer MY_PRIVATE_API_KEY" ;
        if ( $http_authorization != $token ) {
            return 401 "Unauthorized" ;
        }

        # The localhost headers are to simulate the forwarded request as coming from localhost
        # so we dont have to set the Ollama origins as *
        proxy_set_header  Host "127.0.0.1" ;
        proxy_set_header  X-Real-IP "127.0.0.1" ;
        proxy_set_header  X-Forwarded-For "127.0.0.1" ;
        proxy_set_header  X-Forwarded-Proto $scheme ;
        proxy_pass        http://ollama;  # Forward request to the actual web service
    }
}

この構成では次のことが行われます。

ローカルホストポート 11434 で実行される Ollama 用のアップストリームサーバーをセットアップします。
HTTP (80) ポートと HTTPS (443) ポートの両方でリッスンするようにサーバーを構成します。
SSL 証明書とキーの場所を指定します。
Authorization ヘッダーを使用して基本的な API キーチェックを実装します。
リクエストを Ollama サービスに転送し、ローカルホストから送信されたものとしてシミュレートします。

MY_PRIVATE_API_KEY実際の API キーに置き換えて、SSL 証明書のパスがシステムに対して正しいことを確認してください。

この構成を使用する場合は、NGINX プロキシされた Ollama インスタンスを指すように.envファイルを更新します。

 LLM_BASE_URL=https://ollama.yourdomain.com/v1
LLM_API_KEY=MY_PRIVATE_API_KEY
LLM_MODEL=llama3.2:1b

この設定により、API キー認証によるアクセス制御を維持しながら、Ollama インスタンスをインターネットに安全に公開できます。

感謝

このプロジェクトを気に入っていただけましたら、私の仕事をサポートするためにチップを送ることをご検討ください。

?ここで教えてください

拡大する

追加情報

バージョン v1.2.1 - ? Semantic Chunk Matching
タイプ AI ソースコード
更新時間 2024-12-25
サイズ 3.6MB
から Github

web augmented generation

Web 拡張生成

によって保守されています

特徴

前提条件

設定

LLM 構成

オラマの場合:

OpenAI またはその他の互換性のある API の場合:

使用法

エラー処理

ファイル

注記

SearXNG をローカルで実行する (Docker)

設定オプション

認証キーを使用した Nginx 構成の例

スクリプトを尋ねる

使用法

窓

macOS と Linux

スクリプトの実行

NGINX リバースプロキシ経由で Ollama をホスティングする

感謝

?ここで教えてください

Web Resource Downloader

opcon web installer

spotify web downloader

web php

ジェネレーションゼロの挑戦 CODEX

ジェネレーションゼロ – アルプスの暴動

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions

web augmented generation

Web 拡張生成

によって保守されています

特徴

前提条件

設定

LLM 構成

オラマの場合:

OpenAI またはその他の互換性のある API の場合:

使用法

エラー処理

ファイル

注記

SearXNG をローカルで実行する (Docker)

設定オプション

認証キーを使用した Nginx 構成の例

スクリプトを尋ねる

使用法

窓

macOS と Linux

スクリプトの実行

NGINX リバース プロキシ経由で Ollama をホスティングする

感謝

?ここで教えてください

NGINX リバースプロキシ経由で Ollama をホスティングする