redi_searchダウンロード - redi_searchソースコードのダウンロード

レディサーチ

シンプルだが強力な、Redis 上の検索エンジンである RediSearch の Ruby ラッパー。

インストール

まず、Redis と RediSearch をインストールする必要があります。

Redis は https://redis.io/download からダウンロードでき、インストール手順はここで確認できます。あるいは、macOS または Linux では、Homebrew 経由でインストールできます。

RediSearch をインストールするには、https://oss.redislabs.com/redisearch/Quick_Start.html をチェックしてください。 RediSearch を構築したら、Docker を使用していない場合は、 redis.conf ファイルを更新して、常にloadmodule /path/to/redisearch.soを使用して RediSearch モジュールをロードすることができます。 (macOS では、 redis.conf ファイルは/usr/local/etc/redis.confにあります)

Redis と RediSearch が起動して実行されたら、Gemfile に次の行を追加します。

 gem 'redi_search'

その後：

❯ bundle

または、自分でインストールします。

❯ gem install redi_search

そしてそれを要求します:

 require 'redi_search'

gem がインストールされて必要になったら、Redis 構成を使用して gem を構成する必要があります。 Rails を使用している場合は、これをイニシャライザ ( config/initializers/redi_search.rb ) に含める必要があります。

 RediSearch . configure do | config |
  config . redis_config = {
    host : "127.0.0.1" ,
    port : "6379"
  }
end

序文

RediSearch は検索インデックスを中心に展開しているため、検索インデックスとは何かを定義することから始めましょう。 Swiftype によると:

検索インデックスは、特定のクエリに関連する結果を検索するときに検索エンジンが参照する構造化データの本体です。インデックスは、検索エンジンのアルゴリズムの特定の情報取得方法に合わせて調整する必要があるため、検索システムにとって重要な部分です。このように、アルゴリズムとインデックスは互いに密接に関係しています。 Index は動詞 (インデックス作成) としても使用でき、検索エンジンのアルゴリズムに合わせて構造化された形式で非構造化 Web サイトのデータを収集するプロセスを指します。
インデックスについて考える 1 つの方法は、検索インフラストラクチャとオフィスのファイリングシステムの間の次の類似点を考慮することです。あなたがインターンに何千もの紙片 (書類) の束を渡し、会社がより効率的に情報を見つけられるようにファイルキャビネット (インデックス) にこれらの紙片を整理するように指示したと想像してください。インターン生はまず書類を整理し、書類に含まれるすべての情報を把握する必要があります。次に書類をファイリングキャビネットに整理するシステムを決定し、最後に書類が何であるかを決定する必要があります。ファイルがキャビネットに入ったら、ファイルを検索して選択するための最も効果的な方法です。この例では、論文を整理してファイリングするプロセスが Web サイトのコンテンツにインデックスを付けるプロセスに対応し、これらの整理されたファイルを検索して最も関連性の高いファイルを見つける方法が検索アルゴリズムに対応します。

スキーマ

これにより、インデックス内のフィールドとそれらのフィールドのプロパティが定義されます。スキーマは単純な DSL です。各フィールドは、地理、数値、タグ、またはテキストの 4 つのタイプのいずれかであり、多くのオプションを指定できます。スキーマの簡単な例は次のとおりです。

 RediSearch :: Schema . new do
  text_field :first_name
  text_field :last_name
end

各タイプでサポートされているオプションは次のとおりです。

テキストフィールド

オプションなし: text_field :name

オプション

重み(デフォルト: 1.0)
- 結果の精度を計算する際のこのフィールドの重要性を宣言します。これは乗算係数です。
- 例: text_field :name, weight: 2
発音記号
- デフォルトで、検索のフィールドで音声マッチングが実行されます。必須の {matcher} 引数は、使用する音声アルゴリズムと言語を指定します。次のマッチャーがサポートされています。
  - dm:en - 英語用ダブルメタフォン
  - dm:fr - フランス語のダブルメタフォン
  - dm:pt - ポルトガル語用ダブルメタフォン
  - dm:es - スペイン語用ダブルメタフォン
- 例: text_field :name, phonetic: 'dm:en'
ソート可能(デフォルト: false)
- ユーザーは後でこのフィールドの値に基づいて結果を並べ替えることができます (これによりメモリのオーバーヘッドが追加されるため、大きなテキストフィールドで宣言しないでください)。
- 例: text_field :name, sortable: true
no_index (デフォルト: false)
- フィールドにはインデックスが付けられません。これは、 PARTIAL を使用した更新によってドキュメントの完全な再インデックスが発生しないフィールドを作成する場合に、 sortableと併用すると便利です。フィールドにno_indexがあり、 sortableがない場合、そのフィールドはインデックスによって無視されます。
- 例: text_field :name, no_index: true
no_stem (デフォルト: false)
- 値のインデックス作成時にステミングを無効にします。これは固有名などに最適かもしれません。
- 例: text_feidl :name, no_stem: true

数値フィールド

オプションなし: numeric_field :price

オプション

ソート可能(デフォルト: false)
- ユーザーは後でこのフィールドの値に基づいて結果を並べ替えることができます (これによりメモリのオーバーヘッドが追加されるため、大きなテキストフィールドで宣言しないでください)。
- 例: numeric_field :id, sortable: true
no_index (デフォルト: false)
- フィールドにはインデックスが付けられません。これは、 PARTIAL を使用した更新によってドキュメントの完全な再インデックスが発生しないフィールドを作成する場合に、 sortableと併用すると便利です。フィールドにno_indexがあり、 sortableがない場合、そのフィールドはインデックスによって無視されます。
- 例: numeric_field :id, no_index: true

タグフィールド

オプションなし: tag_field :tag

オプション

ソート可能(デフォルト: false)
- ユーザーは後でこのフィールドの値に基づいて結果を並べ替えることができます (これによりメモリのオーバーヘッドが追加されるため、大きなテキストフィールドで宣言しないでください)。
- 例: tag_field :tag, sortable: true
no_index (デフォルト: false)
- フィールドにはインデックスが付けられません。これは、 PARTIAL を使用した更新によってドキュメントの完全な再インデックスが発生しないフィールドを作成する場合に、 sortableと併用すると便利です。フィールドにno_indexがあり、 sortableがない場合、そのフィールドはインデックスによって無視されます。
- 例: tag_field :tag, no_index: true
区切り文字(デフォルト:「,」)
- フィールドに含まれるテキストを個々のタグに分割する方法を示します。デフォルトは , です。値は 1 文字である必要があります。
- 例: tag_field :tag, separator: ','

地理フィールド

オプションなし: geo_field :place

オプション

ソート可能(デフォルト: false)
- ユーザーは後でこのフィールドの値に基づいて結果を並べ替えることができます (これによりメモリのオーバーヘッドが追加されるため、大きなテキストフィールドで宣言しないでください)。
- 例: geo_field :place, sortable: true
no_index (デフォルト: false)
- フィールドにはインデックスが付けられません。これは、 PARTIAL を使用した更新によってドキュメントの完全な再インデックスが発生しないフィールドを作成する場合に、 sortableと併用すると便利です。フィールドにno_indexがあり、 sortableがない場合、そのフィールドはインデックスによって無視されます。
- 例: geo_field :place, no_index: true

書類

Document Redis ハッシュの Ruby 表現です。

.getクラスのメソッドを使用してDocumentを取得できます。

get(index, document_id)指定されたdocument_idのIndex内の単一のDocumentフェッチします。

.for_object(index, record, only: [])クラスメソッドを使用してDocumentインスタンスを作成することもできます。 Indexインスタンスと Ruby オブジェクトを受け取ります。そのオブジェクトは、 IndexのSchemaで指定されたすべてのフィールドに応答する必要があります。はスキーマからフィールドの配列onlyを受け入れ、 Documentに渡されるフィールドを制限します。

Documentのインスタンスを取得すると、 IndexのSchemaでメソッドとdocument_idとして指定されたすべてのフィールドに応答します。 document_id 、一意性を確保するためでない限り、自動的にIndexの名前の前に付加されます。 Index名を先頭に追加するのは、異なるIndexに同じ ID を持つ 2 つのDocumentがある場合、 Documentが互いにオーバーライドされないようにするためです。先頭に付加されたインデックス名を削除する#document_id_without_indexメソッドもあります。

最後に、 IndexからDocument削除する#delメソッドがあります。

索引

Index初期化するには、文字列またはシンボルとしてIndexの名前とSchemaブロックを渡します。

 RediSearch :: Index . new ( name_of_index ) do
  text_field :foobar
end

利用可能なコマンド

create
- Redis インスタンスにインデックスを作成し、ブール値を返します。失敗時に例外を発生させる bang メソッドが付属しています。インデックスがすでに存在する場合はfalseを返します。いくつかのオプションを受け入れます。
  - max_text_fields: #{true || false}
    - 効率性を高めるため、RediSearch は、インデックスが 32 未満のテキストフィールドで作成された場合、異なる方法でインデックスをエンコードします。このオプションを使用すると、RediSearch は 32 を超えるテキストフィールドがあるかのようにインデックスをエンコードするようになり、 add_field使用して追加のフィールド (32 を超える) を追加できるようになります。
  - no_offsets: #{true || false}
    - 設定されている場合、ドキュメントの用語オフセットは保存されません (メモリが節約され、正確な検索や強調表示ができなくなります)。 no_highlight暗黙的に示します。
  - temporary: #{seconds}
    - 非アクティブ状態がseconds続くと期限切れになる軽量の一時インデックスを作成します。内部アイドルタイマーは、インデックスが検索または追加されるたびにリセットされます。このようなインデックスは軽量であるため、パフォーマンスに悪影響を与えることなく、そのようなインデックスを何千も作成できます。
  - no_highlight: #{true || false}
    - ハイライト表示のサポートを無効にすることで、ストレージスペースとメモリを節約します。設定されている場合、用語の位置に対応するバイトオフセットは保存されません。 no_highlightはno_offsetsにも暗黙的に含まれます。
  - no_fields: #{true || false}
    - 設定されている場合、各用語のフィールドビットは保存されません。メモリを節約し、特定のフィールドによるフィルタリングを許可しません。
  - no_frequencies: #{true || false}
    - 設定すると、用語の頻度をインデックスに保存しなくなります。これによりメモリは節約されますが、ドキュメント内の特定の用語の頻度に基づいて並べ替えることはできません。
drop(keep_docs: false)
- Redis インスタンスからIndexを削除し、ブール値を返します。失敗時に例外を発生させる bang メソッドが付属しています。 Indexがすでに削除されている場合はfalse返します。オプションキーワード arg であるkeep_docsを受け取ります。これにより、デフォルトで Redis 内のすべてのドキュメントハッシュが削除されます。
exist?
- Index存在を示すブール値を返します。
info
- Indexに関するすべての情報を含む構造体オブジェクトを返します。
fields
- Index内のフィールド名の配列を返します。
add(document)
- Documentオブジェクトを取得します。失敗時に例外を発生させる bang メソッドが付属しています。
add_multiple(documents)
- Documentオブジェクトの配列を取得します。これにより、複数のドキュメントをIndexに追加するためのより効率的な方法が提供されます。 addと同じオプションを受け入れます。
del(document)
- IndexからDocument削除します。
document_count
- Index内のDocumentの数を返します。
add_field(name, type, **options, &block)
- 新しいフィールドをIndexに追加します。
- ブロックとオプションはオプションです。
- 例: index.add_field(:first_name, :text, phonetic: "dm:en")
reindex(documents, recreate: false)
- recreateがtrueの場合、 Indexは削除され、再作成されます。

検索中

検索は、連結可能な句を含むRediSearch::Indexインスタンスから開始されます。検索すると、すべてのスキーマフィールドのパブリックリーダーメソッドを含むDocumentの配列が返されます。

 main ❯ index = RediSearch :: Index . new ( "user_idx" ) { text_field :name , phonetic : "dm:en" }
main ❯ index . add RediSearch :: Document . for_object ( index , User . new ( "10039" , "Gene" , "Volkman" ) )
main ❯ index . add RediSearch :: Document . for_object ( index , User . new ( "9998" , "Jeannie" , "Ledner" ) )
main ❯ index . search ( "john" )
  RediSearch ( 1.1 ms )  FT . SEARCH user_idx `john`
=> [ #<RediSearch::Document:0x00007f862e241b78 first: "Gene", last: "Volkman", document_id: "10039">,
#<RediSearch::Document:0x00007f862e2417b8 first: "Jeannie", last: "Ledner", document_id: "9998">]

シンプルなフレーズクエリ- hello AND world

 index . search ( "hello" ) . and ( "world" )

完全に一致するフレーズのクエリ- hello FOLLOWED BY world

 index . search ( "hello world" )

ユニオンクエリ- hello OR world

 index . search ( "hello" ) . or ( "world" )

否定クエリ- hello AND NOT world

 index . search ( "hello" ) . and . not ( "world" )

複雑な交差と結合:

 # Intersection of unions
index . search ( index . search ( "hello" ) . or ( "halo" ) ) . and ( index . search ( "world" ) . or ( "werld" ) )
# Negation of union
index . search ( "hello" ) . and . not ( index . search ( "world" ) . or ( "werld" ) )
# Union inside phrase
index . search ( "hello" ) . and ( index . search ( "world" ) . or ( "werld" ) )

すべての用語は、適用できるいくつかのオプションをサポートしています。

接頭辞の用語: 接頭辞で始まるすべての用語と一致します。 (SQL のlike term% )

 index . search ( "hel" , prefix : true )
index . search ( "hello worl" , prefix : true )
index . search ( "hel" , prefix : true ) . and ( "worl" , prefix : true )
index . search ( "hello" ) . and . not ( "worl" , prefix : true )

オプションの用語: オプションの用語を含むドキュメントは、含まれないドキュメントよりも上位にランクされます。

 index . search ( "foo" ) . and ( "bar" , optional : true ) . and ( "baz" , optional : true )

ファジー用語: レーベンシュタイン距離 (LD) に基づいて照合が実行されます。サポートされる最大レーベンシュタイン距離は 3 です。

 index . search ( "zuchini" , fuzziness : 1 )

where句を使用して、検索語の範囲を特定のフィールドに限定することもできます。

 # Simple field specific query
index . search . where ( name : "john" )
# Using where with options
index . search . where ( first : "jon" , fuzziness : 1 )
# Using where with more complex query
index . search . where ( first : index . search ( "bill" ) . or ( "bob" ) )

数値フィールドの検索には範囲を指定します。

 index . search . where ( number : 0 .. 100 )
# Searching to infinity
index . search . where ( number : 0 .. Float :: INFINITY )
index . search . where ( number : - Float :: INFINITY .. 0 )

クエリレベル句

slop(level)
- フレーズ用語間の不一致オフセットの介在数は最大 N 個まで許容されます。 (つまり、正確なフレーズのスロップは 0 です)
in_order
- 通常はslopと組み合わせて使用されます。クエリ用語間のオフセットに関係なく、クエリ用語がクエリ内と同じ順序でDocument内に表示されるようにします。
no_content
- Document ID のみを返し、コンテンツは返しません。これは、 Document属性が重要ではなく、 ActiveRecordオブジェクトに変換される Rails モデルで RediSearch が使用されている場合に便利です。
language(language)
- クエリ拡張の検索中に指定された言語に使用するステマー。中国語でDocumentをクエリする場合、クエリ用語を適切にトークン化するために、これを中国語に設定する必要があります。サポートされていない言語が送信された場合、コマンドはエラーを返します。
sort_by(field, order: :asc)
- 指定されたフィールドが並べ替え可能なフィールドの場合、結果はこのフィールドの値によって並べ替えられます。これはテキストフィールドと数値フィールドの両方に適用されます。利用可能な順序は:ascまたは:descです
limit(num, offset = 0)
- 結果をoffsetで指定されたnumに制限します。デフォルトの制限は10に設定されています。
count
- 検索クエリで見つかったDocumentの数を返します。
highlight(fields: [], opening_tag: "<b>", closing_tag: "</b>")
- このオプションを使用して、一致したテキストの出現箇所を書式設定します。 fields強調表示されるフィールドの配列です。
verbatim
- クエリ拡張にステミングを使用せず、クエリ用語をそのまま検索してください。
no_stop_words
- クエリからストップワードをフィルタリングしないでください。
with_scores
- 各Documentの相対的な内部スコアを含めます。これを使用して、複数のインスタンスからの結果をマージできます。これにより、返されたDocumentインスタンスにscoreメソッドが追加されます。
return(*fields)
- Documentから返されるフィールドを制限します。
explain
- 複雑なクエリの実行プランを返します。返された応答では、用語の + はステミングを示します。

スペルチェック

スペルチェックはRediSearch::Indexインスタンスから開始され、スペルが間違っている検索語の候補を提供します。スペル提案の最大レーベンシュタイン距離であるオプションのdistance引数を取ります。各要素に各検索語の候補と、インデックス内の出現に基づいた正規化されたスコアが含まれる配列を返します。

 main ❯ index = RediSearch :: Index . new ( "user_idx" ) { text_field :name , phonetic : "dm:en" }
main ❯ index . spellcheck ( "jimy" )
  RediSearch ( 1.1 ms )  FT . SPELLCHECK user_idx jimy DISTANCE 1
  => [ #<RediSearch::Spellcheck::Result:0x00007f805591c670
    term : "jimy" ,
    suggestions :
     [ #<struct RediSearch::Spellcheck::Suggestion score=0.0006849315068493151, suggestion="jimmy">,
      #<struct RediSearch::Spellcheck::Suggestion score=0.00019569471624266145, suggestion="jim">]>]
main ❯ index . spellcheck ( "jimy" , distance : 2 ) . first . suggestions
  RediSearch ( 0.5 ms )  FT . SPELLCHECK user_idx jimy DISTANCE 2
=> [ #<struct RediSearch::Spellcheck::Suggestion score=0.0006849315068493151, suggestion="jimmy">,
 #<struct RediSearch::Spellcheck::Suggestion score=0.00019569471624266145, suggestion="jim">]

Railsの統合

Rails との統合は非常に簡単です。モデル内からschemaキーワード引数を使用してredi_search呼び出します。元：

 class User < ApplicationRecord
  redi_search do
    text_field :first , phonetic : "dm:en"
    text_field :last , phonetic : "dm:en"
  end
end

これにより、 Indexインスタンスで呼び出した場合と同じように動作するUser.searchとUser.spellcheckメソッドが自動的に追加されます。

User.reindex(recreate: false, only: [])も追加され、 RediSearch::Index#reindexと同様に動作します。相違点には次のようなものがあります。

Documentを最初のパラメータとして渡す必要はありません。 search_importスコープが自動的に呼び出され、すべてのレコードがDocumentに変換されます。
更新する限られた数のフィールドを指定できるオプションonlyパラメーターを受け入れます。スキーマを変更し、特定のフィールドのインデックスのみを作成する必要がある場合に便利です。

スキーマを定義する際、オプションでブロックを渡すことができます。ブロックが渡されない場合は、値を取得するためにモデルに対してnameが呼び出されます。ブロックが渡された場合、フィールドの値はブロックの呼び出しを通じて取得されます。

 class User < ApplicationRecord
  redi_search do
    text_field :name do
      " #{ first_name } #{ last_name } "
    end
  end
end

モデルのsearch_importスコープをオーバーライドして、インデックス作成時に関係を一括ロードしたり、インデックスを作成するレコードを制限したりすることができます。

 class User < ApplicationRecord
  scope :search_import , -> { includes ( :posts ) }
end

検索すると、デフォルトでDocumentのコレクションが返されます。検索クエリで#results呼び出すと、検索が実行され、データベース内で見つかったすべてのレコードが検索され、ActiveRecord リレーションが返されます。

モデルIndexのデフォルトのIndex名は#{model_name.plural}_#{RediSearch.env}です。 redi_searchメソッドは、インデックス名の前に付加されるオプションのindex_prefix引数を受け取ります。

 class User < ApplicationRecord
  redi_search index_prefix : 'prefix' do
    text_field :first , phonetic : "dm:en"
    text_field :last , phonetic : "dm:en"
  end
end

User . search_index . name
# => prefix_users_development

RediSearch をモデルに統合すると、レコードの作成と更新後に自動的にインデックスが作成され、破棄時にIndexから削除されます。

公開されている便利なメソッドがさらにいくつかあります。

search_document
- レコードをRediSearch::Documentインスタンスとして返します
remove_from_index
- Indexからレコードを削除します
add_to_index
- レコードをIndexに追加します
search_index
- RediSearch::Indexインスタンスを返します

発達

リポジトリをチェックアウトした後、 bin/setup実行して依存関係をインストールします。次に、 rake test実行して、単体テストと統合テストの両方を実行します。それらを個別に実行するにはrake test:unitまたはrake test:integration実行できます。 bin/console実行して対話型プロンプトを表示し、実験することもできます。

この gem をローカルマシンにインストールするには、 bundle exec rake install実行します。新しいバージョンをリリースするには、 bin/publish (major|minor|patch)を実行します。これにより、 version.rb内のバージョン番号が更新され、そのバージョンの git タグが作成され、git のコミットとタグがプッシュされ、 .gemファイルが Rubygems にプッシュされます。 .org と GitHub。