PixelArtSearchダウンロード - PixelArtSearchソースコードのダウンロード

PixelArtSearch

その他のソースコード

1.0.0

ダウンロード

OpenGameArt のピクセルアート逆引き画像検索

最終的な検索はどのようになりますか?

例を含む最終的な検索はここにあります。

次のようになります。

OpenGameArt の逆画像検索が必要になったのはなぜですか?

Google 画像検索と TinEye では良い結果が得られないため、OpenGameArt 用の逆画像検索を構築したいと思いました。以前、OpenGameArt で同様の画像の概要を表示するために巨大なタイルマップを生成しましたが、Web または画像ブラウザーではリソースにあまり優しくなく、より小さなファイルに分割する必要があり、さらに、検索することもできませんでした。スクロール可能。そこで私は、人々が OpenGameArt で利用できるアートの種類を探索する方法を求め、類似検索を使用して画像空間を参照することにたどり着きました。

クロールはどうやってやったのですか？

最初にやらなければならなかったのは、OpenGameArt で興味のあるクエリの検索結果 (主に 2D アート) を取得することでした。次に、検索結果インデックスにある各 HTML ページを取得し、HTML を解析してファイルへのリンクを見つける必要がありました。 OpenGameArt には zip や rar ファイルなどのアーカイブファイルが多数含まれているため、画像を取得するにはそれらを解凍する必要がありました。

たとえば、コンテンツページを解析してファイルリンクを取得する方法を示すスニペットを次に示します。

 responseBody = await Common . ReadURIOrCache ( blob , Common . BaseURI + page , client ) ;

var htmlDoc = new HtmlDocument ( ) ;
htmlDoc . LoadHtml ( responseBody ) ;
var htmlBody = htmlDoc . DocumentNode . SelectSingleNode ( " //body " ) ;

foreach ( var nNode in htmlBody . Descendants ( " a " ) )
{
    if ( nNode . NodeType == HtmlNodeType . Element &&
        nNode . Attributes [ " href " ] != null &&
        nNode . Attributes [ " href " ] . Value . Contains ( " /default/files/ " ) )
    {
        msg . Add ( HttpUtility . HtmlDecode ( nNode . Attributes [ " href " ] . Value . Replace ( Common . FileURI , " " ) ) ) ;
    }
}

クロールにはどのテクノロジーを使用しましたか?また、費用はいくらかかりましたか?

Azure Functions を使用してクロールの手順を実行し、必要に応じて手動で修正を行ったり来たりしました。各ステップには独自のキューがあり、次のステップのジョブを次のキューに置きます。最終的に、Azure での呼び出しコストは約 50 USD、私の記憶が正しければ 1,000 ～ 2,000 万回の関数呼び出しに相当します。

どの代替案を調査しましたか?

オープンソースの Milvus データベースを使用しようとしましたが、DigitalOcean サーバーに十分なメモリがなかったため、データベースがクラッシュしました。その後、偶然かつ幸運にも Hacker News のコメントセクションで Pinecone へのリンクを発見し、試用版は無料で、Milvus を使用するためにサーバーメモリを拡張する必要がなかったため、代わりにそれを使用することにしました。結局、とにかくサーバーを拡張しましたが、Milvus を再度試すことはありませんでした (少なくともまだ)。

逆画像検索を作成するには、各画像にどのようなデータが必要ですか?

このためにスクリプトで VGG16 特徴抽出を使用しました。詳細については記事を参照してください。本質的には、各画像の 4096 個の 32 ビット浮動小数点数であり、画像のさまざまな特徴を記述します。たとえば、非常に単純化した方法で、ストライプや正方形の数、緑色の度合いなどを示します。。ただし、これらの特徴は、VGG16 (通常は画像分類に使用される) のニューラルネットワーク内のニューロンに基づいているため、特徴は単純な特徴タグで記述されるものよりも複雑になる可能性があります。これらのベクトルが必要な理由は、2 つのベクトルに対してユークリッド距離、コサイン類似度、または別の尺度を使用して、それらが類似しているかどうかを確認するのが簡単であり、その結果、画像が類似していることになります。さらに、これらのベクトルには検索技術があり、大量のベクトルを迅速に検索できます。

以下は、特徴抽出を行う方法を示す簡略化された Python スクリプトです。

 #!/usr/bin/env python3
# -*- coding: utf-8 -*-
# vim: ft=python ts=4 sw=4 sts=4 et fenc=utf-8

from tensorflow . keras . applications . vgg16 import VGG16
from tensorflow . keras . preprocessing import image
from tensorflow . keras . applications . vgg16 import decode_predictions , preprocess_input
from tensorflow . keras . models import Model
from tensorflow . compiler import xla
import numpy as np
import time
import os
import sys
import PIL
import json
import math
import multiprocessing
from glob import glob
from PIL import Image
from io import BytesIO

model = VGG16 ( weights = 'imagenet' , include_top = True )
feat_extractor = Model ( inputs = model . input , outputs = model . get_layer ( "fc2" ). output )

def prepImage ( img ):
    x = np . array ( img . resize (( 224 , 224 )). convert ( 'RGB' ))
    x = np . expand_dims ( x , axis = 0 )
    x = preprocess_input ( x )
    return x

def main ():
    'entry point'
    fname = 'demo.jpg'
    dt = Image . open ( fname )
    pimg = prepImage ( dt )

    print ( "Computing feature vector" , fname )
    features = feat_extractor . predict ( pimg )
    print ( features )

if __name__ == '__main__' :
    main ()

スクリプトの出力は次のとおりです。

emh@frostpunk ~ /public_html/ogasearch 0% ./test.py                                                                                                                                                                                                                                                                                                                         (git)-[gh-pages]
2021-04-07 18:48:03.158023: W tensorflow/stream_executor/platform/default/dso_loader.cc:60] Could not load dynamic library ' libcudart.so.11.0 ' ; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2021-04-07 18:48:03.158082: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
2021-04-07 18:48:07.783109: I tensorflow/compiler/jit/xla_cpu_device.cc:41] Not creating XLA devices, tf_xla_enable_xla_devices not set
2021-04-07 18:48:07.783485: W tensorflow/stream_executor/platform/default/dso_loader.cc:60] Could not load dynamic library ' libcuda.so.1 ' ; dlerror: libcuda.so.1: cannot open shared object file: No such file or directory
2021-04-07 18:48:07.783530: W tensorflow/stream_executor/cuda/cuda_driver.cc:326] failed call to cuInit: UNKNOWN ERROR (303)
2021-04-07 18:48:07.783580: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:156] kernel driver does not appear to be running on this host (frostpunk): /proc/driver/nvidia/version does not exist
2021-04-07 18:48:07.784058: I tensorflow/core/platform/cpu_feature_guard.cc:142] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2021-04-07 18:48:07.784513: I tensorflow/compiler/jit/xla_gpu_device.cc:99] Not creating XLA devices, tf_xla_enable_xla_devices not set
2021-04-07 18:48:08.599925: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Allocation of 411041792 exceeds 10% of free system memory.
2021-04-07 18:48:09.194634: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Allocation of 411041792 exceeds 10% of free system memory.
2021-04-07 18:48:09.385612: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Allocation of 411041792 exceeds 10% of free system memory.
2021-04-07 18:48:13.033066: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Allocation of 411041792 exceeds 10% of free system memory.
Computing feature vector demo.jpg
2021-04-07 18:48:13.706621: I tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:116] None of the MLIR optimization passes are enabled (registered 2)
2021-04-07 18:48:13.717564: I tensorflow/core/platform/profile_utils/cpu_utils.cc:112] CPU Frequency: 2199995000 Hz
[[0.        3.1128967 1.5611947 ... 1.2625191 0.7709812 0.       ]]
./test.py  12.20s user 4.66s system 132% cpu 12.731 total

画像 URL とベクターデータベースの特徴ベクトルの間のリンクをどのように維持すればよいでしょうか?

また、最終的にはすべての画像 URL を SQL データベースに入れ、VGG16 特徴抽出を行ったかどうか、およびそれがベクトルデータベース (Milvus または Pinecone) に追加されたかどうかを示すフラグを持ちたかったのです。 [Pinecone](https://www.pinecone.io/ には他のメタデータが保存されないため、Pineone で使用される整数の主キーと URL、およびおそらく画像に属するその他のメタデータ) の間で相互にマップします。最終的には、SQL データベースをタブ区切りのテキストファイルに変換し、クエリサーバーの起動時にロードしました。

どれくらい時間がかかりましたか？

すべてのコードを実行して完了するまでに合計 1 週間を費やしたと思います。クロール、特徴ベクトルの計算など、各ステップに 1 ～ 2 日程度かかりました。ベクトルを松ぼっくりデータベースに挿入するのにどれくらい時間がかかったのか覚えていませんが、最も時間のかかるステップではなかったと思います。

単語と画像の 2 つの検索方法

検索には 2 つの方法があり、キーワードを入力する方法と、単純に (O(n) で少しゆっくりと) URL を直線的に反復して文字列の一致を探す方法です。私が線形検索にこだわったのは、実装が簡単で、とにかくすべての URL がメモリに保持されるため、それほど遅くないからです。すべての URL をテキストファイルにダンプし、毎回 SQL サーバーにクエリを実行するのではなく、クエリサーバーの負荷時にそれをメモリにロードしました。
もう 1 つの検索方法は、画像の URL を入力することです。これにより、画像 (私のサーバー上) で特徴抽出が実行され、Pinecon に同様のベクトルがクエリされ、主キーにマッピングされ、リスト内で検索されます。 URLの。
また、見つかった画像を OpenGameArt サイトにリンクするために、「リバースデータベース」テキストファイルも管理しています (これにはまだ修正していないバグがいくつかあり、その場合は OpenGameArt メインページにリンクするだけです)。このファイルはクエリサーバーの起動時にもロードされます。最後に、各画像の下には類似した画像を検索するためのリンクもあり、暗黙的に画像による 2 番目の種類のクエリを使用します。

遭遇した問題にはどのようなものがありますか?

最後に、同じスコアを持つ重複に近い画像結果を削除するための簡単な修正も追加しました。ファイルシステムに URL エンコードを使用してファイルを保存したため、「二重」URL エンコードを使用した検索ページで問題が発生しましたが、ブラウザが二重エンコードした場合に備えてフロントエンドで検出コードを使用して問題を回避しました。 URL エンコードされたファイル名。クロールされたファイルは URL エンコードせずに保存することをお勧めします。私のスクリプトがそれほど高品質でも洗練されていないことを残念に思っています。たとえば、スクリプトには複数のステップがあり、コマンドライン引数を取得する代わりにスクリプトを編集することで変更を加えています。ちょっと面倒なので、スクリプトの抜粋を投稿して説明する気はありません。さらに、特徴抽出を処理する前に、途中でファイルを Azure ストレージから DigitalOcean サーバーに移動したため、データの場所の処理に一貫性がありません。

最終的なポイントは何でしょうか?

コストを節約するために、おそらく Azure Functions や Azure Storage よりも安価な基板 (独自のサーバーや固定価格のクラウドサーバーなど) でクロールを実行することをお勧めします。まあ、50 米ドルかかりましたが、DigitalOcean サーバーでは無料で実行できたので、それが理由です。
より堅牢な、冪等で、いつでも再起動できるクローラーを構築することをお勧めします。クローラーが終了する可能性があるか、手動による介入が必要な場合があります (たとえば、一部の大きな zip ファイルを解凍する際に、Azure Function の最大実行時間の 5 分を超えたため、 VS Code でローカルに関数を実行します)。
今回やりきれなかったのが残念だったのは、タイルシートから全タイルを個別画像に抽出して検索する作業でした。そうすれば検索はさらに便利になるでしょう。一方で、ほぼ同一の画像が多すぎると、類似性検索が混乱する可能性があります。

結論と最後のコメント

また、クロールの最初のステップを完了してからすべての機能抽出を行ってから実行するのではなく、少しのコンテンツを使用してシステムのプロトタイプを作成し、機能するようになったらすべてのコンテンツに対してパイプライン全体をエンドツーエンドで実行することも役立つ場合があります。私がやったのと同じように、すべてのデータベースを挿入します。
結論として、私が作成したものはちょっとしたハックであり、新しいコンテンツを更新するためのそれほど強力なスクリプトではありませんでしたが、プロトタイプとしては問題なく機能し、まともな画像検索結果が得られました（必ずしも正確であるとは限りませんが、機能のせいだと思います）抽出は実際には小さなピクセルアートを対象としたものではありません (ただし、特徴抽出の前にサイズ変更/アップスケールされます)。
Milvus も同様の結果を提供できるかどうか、速度と品質に関してある種の並べて比較できるかどうかを確認するのは興味深いかもしれませんが、Pinecone はすでにサービスとして稼働しているため、使用する方がはるかに簡単であることがわかりました。独自のベクトルデータベースを実行する必要はありません。

スクリプトの場所

*.cs ファイル内の Azure Functions OpenGameArt クローラー。料金の関係で、後でクロールされたファイルを DigitalOcean に移動しました。
/scripts 内の機械学習および Pinecone クエリサーバー用のスクリプト。
フロントページのソース。
OpenGameArt イメージの t-SNE 埋め込みのソースコードも参照してください。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2024-12-24
サイズ 33.68KB
から Github

PixelArtSearch

OpenGameArt のピクセルアート逆引き画像検索

最終的な検索はどのようになりますか?

OpenGameArt の逆画像検索が必要になったのはなぜですか?

クロールはどうやってやったのですか？

クロールにはどのテクノロジーを使用しましたか?また、費用はいくらかかりましたか?

どの代替案を調査しましたか?

逆画像検索を作成するには、各画像にどのようなデータが必要ですか?

画像 URL とベクターデータベースの特徴ベクトルの間のリンクをどのように維持すればよいでしょうか?

どれくらい時間がかかりましたか？

単語と画像の 2 つの検索方法

遭遇した問題にはどのようなものがありますか?

最終的なポイントは何でしょうか?

結論と最後のコメント

スクリプトの場所

waymo open dataset

SmartTube

Sunamu

MySchedule.py

viptools for eslam

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind

PixelArtSearch

OpenGameArt のピクセルアート逆引き画像検索

最終的な検索はどのようになりますか?

OpenGameArt の逆画像検索が必要になったのはなぜですか?

クロールはどうやってやったのですか？

クロールにはどのテクノロジーを使用しましたか?また、費用はいくらかかりましたか?

どの代替案を調査しましたか?

逆画像検索を作成するには、各画像にどのようなデータが必要ですか?

画像 URL とベクター データベースの特徴ベクトルの間のリンクをどのように維持すればよいでしょうか?

どれくらい時間がかかりましたか？

単語と画像の 2 つの検索方法

遭遇した問題にはどのようなものがありますか?

最終的なポイントは何でしょうか?

結論と最後のコメント

スクリプトの場所

画像 URL とベクターデータベースの特徴ベクトルの間のリンクをどのように維持すればよいでしょうか?