意味的に検索したいミームの大きなフォルダーがありますか? Nvidia GPU を搭載した Linux サーバーはありますか?あなたがやる;これは現在必須です。
百聞は一見に如かずと言います。残念ながら、多くの (ほとんどの?) 単語セットは、絵では適切に説明できません。それはともかく、ここに写真があります。ここで実行中のインスタンスを使用できます。
これは未テストです。それはうまくいくかもしれません。新しい Rust バージョンでは、いくつかの手順が簡素化されています (独自のサムネイルが統合されています)。
python -m http.server
使用できます。requirements.txt
のpip
を使用してインストールします (バージョンを変更する必要がある場合、バージョンが正確に一致する必要はおそらくありません。現在インストールしているものをそのまま入力します)。transformers
のパッチ適用済みバージョンが必要になります。thumbnailer.py
を実行します (定期的に、理想的にはインデックスのリロードと同時に)clip_server.py
実行します。clip_server_config.json
にあります。device
おそらくcuda
またはcpu
であるはずです。モデルはここで実行されます。model
はmodel_name
メトリクスを目的としたモデルの名前です。max_batch_size
許可される最大バッチ サイズを制御します。一般に、値を高くすると、VRAM の使用量が多くなりますが、パフォーマンスが多少向上します (ただし、ほとんどの場合、ボトルネックは現時点では別の場所にあります)。port
、HTTP サーバーを実行するポートです。meme-search-engine
(Rust) をビルドして実行します (バックグラウンド サービスとしても)。clip_server
バックエンド サーバーの完全な URL です。db_path
、画像と埋め込みベクトルの SQLite データベースのパスです。files
、meme ファイルの読み取り元です。サブディレクトリにはインデックスが付けられます。port
HTTP を提供するポートです。enable_thumbs
true
に設定します。npm install
、 node src/build.js
。frontend_config.json
編集するたびに再構築する必要があります。image_path
ミーム Web サーバーのベース URL (末尾にスラッシュが付きます) です。backend_url
は、 mse.py
が公開されている URL です (末尾のスラッシュはおそらくオプションです)。clip_server.py
監視するように Prometheus を構成します。 新しい自動ミーム取得/評価システム ( meme-rater
の下) MemeThresher については、こちらを参照してください。自分でデプロイするのは多少難しいことが予想されますが、おおよそ実行できるはずです。
crawler.py
編集し、それを実行して初期データセットを収集します。mse.py
実行し、インデックスを付けます。rater_server.py
を使用して、ペアの初期データセットを収集します。train.py
使用してモデルをトレーニングします。どのハイパーパラメータが良いのかわからないので、ハイパーパラメータを調整する必要があるかもしれません。active_learning.py
使用して、評価する新しいペアを取得します。copy_into_queue.py
を使用して、新しいペアをrater_server.py
キューにコピーします。library_processing_server.py
をデプロイし、 meme_pipeline.py
定期的に実行するようにスケジュールします。 ミーム検索エンジンは、埋め込みベクトルを保持するためにメモリ内の FAISS インデックスを使用します。これは、私が怠け者だったためであり、正常に動作します (8000 個のミームに使用される合計 RAM は約 100MB)。それよりも大幅に多くのインデックスを保存したい場合は、より効率的でコンパクトなインデックスに切り替える必要があります (ここを参照)。ベクトル インデックスはメモリ内に排他的に保持されるため、ベクトル インデックスをディスクに永続化するか、構築/削除/追加が高速なインデックス (おそらく PCA/PQ インデックス) を使用する必要があります。ある時点で総トラフィックが増加すると、バッチ処理戦略がないため、CLIP モデルもボトルネックになる可能性があります。新しいモデルはバッチサイズが大きいと若干遅くなり、画像読み込みパイプラインを改善したため、インデックス作成は現在 GPU に依存しています。必要な帯域幅を削減するために、表示されるミームを縮小することもできます。