Descarga redi_search - descarga de código fuente redi

RediBuscar

Un contenedor Ruby simple pero poderoso para RediSearch, un motor de búsqueda basado en Redis.

Instalación

En primer lugar, es necesario instalar Redis y RediSearch.

Puede descargar Redis desde https://redis.io/download y consultar las instrucciones de instalación aquí. Alternativamente, en macOS o Linux puedes instalar a través de Homebrew.

Para instalar RediSearch, consulte https://oss.redislabs.com/redisearch/Quick_Start.html. Una vez que haya creado RediSearch, si no está utilizando Docker, puede actualizar su archivo redis.conf para cargar siempre el módulo RediSearch con loadmodule /path/to/redisearch.so . (En macOS, el archivo redis.conf se puede encontrar en /usr/local/etc/redis.conf )

Una vez que Redis y RediSearch estén en funcionamiento, agregue la siguiente línea a su Gemfile:

 gem 'redi_search'

Y luego:

❯ bundle

O instálelo usted mismo:

❯ gem install redi_search

y exigirlo:

 require 'redi_search'

Una vez que la gema esté instalada y sea necesaria, deberá configurarla con su configuración de Redis. Si estás en Rails, esto debería ir en un inicializador ( config/initializers/redi_search.rb ).

 RediSearch . configure do | config |
  config . redis_config = {
    host : "127.0.0.1" ,
    port : "6379"
  }
end

Tabla de contenido

Prefacio
Esquema
Documento
Índice
Búsqueda
corrector ortográfico
Integración de rieles

Prefacio

RediSearch gira en torno a un índice de búsqueda, así que comencemos definiendo qué es un índice de búsqueda. Según Swifttype:

Un índice de búsqueda es un conjunto de datos estructurados al que hace referencia un motor de búsqueda cuando busca resultados que sean relevantes para una consulta específica. Los índices son una pieza crítica de cualquier sistema de búsqueda, ya que deben adaptarse al método de recuperación de información específico del algoritmo del motor de búsqueda. De esta manera, el algoritmo y el índice están inextricablemente vinculados entre sí. Índice también se puede utilizar como verbo (indexación), refiriéndose al proceso de recopilación de datos no estructurados de un sitio web en un formato estructurado adaptado al algoritmo del motor de búsqueda.
Una forma de pensar en los índices es considerar la siguiente analogía entre una infraestructura de búsqueda y un sistema de archivo de oficina. Imagine que le entrega a un pasante una pila de miles de hojas de papel (documentos) y le dice que las organice en un archivador (índice) para ayudar a la empresa a encontrar información de manera más eficiente. El pasante primero tendrá que clasificar los papeles y hacerse una idea de toda la información contenida en ellos, luego tendrá que decidir sobre un sistema para ordenarlos en el archivador y finalmente tendrá que decidir cuál es el forma más eficaz de buscar y seleccionar los archivos una vez que están en el archivador. En este ejemplo, el proceso de organización y archivo de los artículos corresponde al proceso de indexación del contenido del sitio web, y el método para buscar en estos archivos organizados y encontrar los más relevantes corresponde al algoritmo de búsqueda.

Esquema

Esto define los campos y las propiedades de esos campos en el índice. Un esquema es un DSL simple. Cada campo puede ser de cuatro tipos: geográfico, numérico, de etiqueta o de texto y puede tener muchas opciones. Un ejemplo simple de un esquema es:

 RediSearch :: Schema . new do
  text_field :first_name
  text_field :last_name
end

Las opciones admitidas para cada tipo son las siguientes:

Campo de texto

Sin opciones: text_field :name

Opciones

peso (predeterminado: 1,0)
- Declara la importancia de este campo al calcular la precisión del resultado. Este es un factor de multiplicación.
- Ej: text_field :name, weight: 2
fonético
- Realizará coincidencias fonéticas en el campo en las búsquedas de forma predeterminada. El argumento obligatorio {matcher} especifica el algoritmo fonético y el lenguaje utilizado. Se admiten los siguientes comparadores:
  - dm:en - Doble Metáfono para Inglés
  - dm:fr - Doble metáfono para francés
  - dm:pt - Doble metáfono para portugués
  - dm:es - Doble Metáfono para Español
- Ej: text_field :name, phonetic: 'dm:en'
ordenable (predeterminado: falso)
- Permite al usuario ordenar posteriormente los resultados por el valor de este campo (esto agrega sobrecarga de memoria, por lo que no lo declare en campos de texto grandes).
- Ej: text_field :name, sortable: true
no_index (predeterminado: falso)
- El campo no será indexado. Esto es útil junto con sortable , para crear campos cuya actualización usando PARTIAL no provocará una reindexación completa del documento. Si un campo tiene no_index y no tiene sortable , el índice simplemente lo ignorará.
- Ej: text_field :name, no_index: true
no_stem (predeterminado: falso)
- Deshabilite la derivación al indexar sus valores. Esto puede ser ideal para cosas como nombres propios.
- Ej: text_feidl :name, no_stem: true

Campo numérico

Sin opciones: numeric_field :price

Opciones

ordenable (predeterminado: falso)
- Permite al usuario ordenar posteriormente los resultados por el valor de este campo (esto agrega sobrecarga de memoria, por lo que no lo declare en campos de texto grandes).
- Ej: numeric_field :id, sortable: true
no_index (predeterminado: falso)
- El campo no será indexado. Esto es útil junto con sortable , para crear campos cuya actualización usando PARTIAL no provocará una reindexación completa del documento. Si un campo tiene no_index y no tiene sortable , el índice simplemente lo ignorará.
- Ej: numeric_field :id, no_index: true

Campo de etiqueta

Sin opciones: tag_field :tag

Opciones

ordenable (predeterminado: falso)
- Permite al usuario ordenar posteriormente los resultados por el valor de este campo (esto agrega sobrecarga de memoria, por lo que no lo declare en campos de texto grandes).
- Ej: tag_field :tag, sortable: true
no_index (predeterminado: falso)
- El campo no será indexado. Esto es útil junto con sortable , para crear campos cuya actualización usando PARTIAL no provocará una reindexación completa del documento. Si un campo tiene no_index y no tiene sortable , el índice simplemente lo ignorará.
- Ej: tag_field :tag, no_index: true
separador (predeterminado: ","")
- Indica cómo se dividirá el texto contenido en el campo en etiquetas individuales. El valor predeterminado es. El valor debe ser un solo carácter.
- Ej: tag_field :tag, separator: ','

Campo geográfico

Sin opciones: geo_field :place

Opciones

ordenable (predeterminado: falso)
- Permite al usuario ordenar posteriormente los resultados por el valor de este campo (esto agrega sobrecarga de memoria, por lo que no lo declare en campos de texto grandes).
- Ej: geo_field :place, sortable: true
no_index (predeterminado: falso)
- El campo no será indexado. Esto es útil junto con sortable , para crear campos cuya actualización usando PARTIAL no provocará una reindexación completa del documento. Si un campo tiene no_index y no tiene sortable , el índice simplemente lo ignorará.
- Ej: geo_field :place, no_index: true

Documento

Un Document es la representación Ruby de un hash de Redis.

Puede recuperar un Document utilizando métodos de clase .get .

get(index, document_id) recupera un único Document en un Index para un document_id determinado.

También puede crear una instancia Document utilizando el método de clase .for_object(index, record, only: []) . Se necesita una instancia Index y un objeto Ruby. Ese objeto debe responder a todos los campos especificados en el Schema del Index . only acepta una serie de campos del esquema y limita los campos que se pasan al Document .

Una vez que tenga una instancia de un Document , éste responde a todos los campos especificados en el Schema del Index como métodos y document_id . document_id se antepone automáticamente con los nombres del Index a menos que ya lo esté para garantizar la unicidad. Anteponemos el nombre Index porque si tiene dos Document con la misma identificación en Index diferentes, no queremos que los Document se anulen entre sí. También hay un método #document_id_without_index que elimina el nombre del índice antepuesto.

Finalmente hay un método #del que eliminará el Document del Index .

Índice

Para inicializar un Index , pase el nombre del Index como una cadena o símbolo y el bloque Schema .

 RediSearch :: Index . new ( name_of_index ) do
  text_field :foobar
end

Comandos disponibles

create
- Crea el índice en la instancia de Redis y devuelve un valor booleano. Tiene un método de explosión adjunto que generará una excepción en caso de falla. Devolverá false si el índice ya existe. Acepta algunas opciones:
  - max_text_fields: #{true || false}
    - Para mayor eficiencia, RediSearch codifica los índices de manera diferente si se crean con menos de 32 campos de texto. Esta opción obliga a RediSearch a codificar índices como si hubiera más de 32 campos de texto, lo que le permite agregar campos adicionales (más allá de 32) usando add_field .
  - no_offsets: #{true || false}
    - Si se configura, no almacenamos compensaciones de términos para documentos (ahorra memoria, no permite búsquedas exactas ni resaltado). Implica no_highlight .
  - temporary: #{seconds}
    - Cree un índice temporal ligero que caducará después de seconds de inactividad. El temporizador de inactividad interno se reinicia cada vez que se busca o se agrega al índice. Debido a que dichos índices son livianos, puede crear miles de índices sin implicaciones negativas para el rendimiento.
  - no_highlight: #{true || false}
    - Conserva espacio de almacenamiento y memoria al desactivar la compatibilidad con resaltado. Si se establece, no almacenamos los desplazamientos de bytes correspondientes para las posiciones de los términos. no_highlight también está implícito en no_offsets .
  - no_fields: #{true || false}
    - Si se establece, no almacenamos bits de campo para cada término. Ahorra memoria, no permite filtrar por campos específicos.
  - no_frequencies: #{true || false}
    - Si se establece, evitamos guardar las frecuencias de términos en el índice. Esto ahorra memoria pero no permite ordenar según las frecuencias de un término determinado dentro del documento.
drop(keep_docs: false)
- Elimina el Index de la instancia de Redis y devuelve un valor booleano. Tiene un método de explosión adjunto que generará una excepción en caso de falla. Devolverá false si el Index ya se ha eliminado. Toma una opción de palabra clave arg, keep_docs , que de forma predeterminada eliminará todos los hashes del documento en Redis.
exist?
- Devuelve un valor booleano que indica la existencia Index .
info
- Devuelve un objeto de estructura con toda la información sobre el Index .
fields
- Devuelve una matriz de los nombres de los campos en el Index .
add(document)
- Toma un objeto Document . Tiene un método de explosión adjunto que generará una excepción en caso de falla.
add_multiple(documents)
- Toma una serie de objetos Document . Esto proporciona una forma más eficaz de agregar varios documentos al Index . Acepta las mismas opciones que add .
del(document)
- Elimina un Document del Index .
document_count
- Devuelve el número de Document en el Index
add_field(name, type, **options, &block)
- Agrega un nuevo campo al Index .
- El bloque y las opciones son opcionales.
- Ej: index.add_field(:first_name, :text, phonetic: "dm:en")
reindex(documents, recreate: false)
- Si recreate es true el Index se eliminará y se volverá a crear.

Búsqueda

La búsqueda se inicia a partir de una instancia RediSearch::Index con cláusulas que se pueden encadenar. Al realizar la búsqueda, se devuelve una matriz de Document que tiene métodos de lectura públicos para todos los campos del esquema.

 main ❯ index = RediSearch :: Index . new ( "user_idx" ) { text_field :name , phonetic : "dm:en" }
main ❯ index . add RediSearch :: Document . for_object ( index , User . new ( "10039" , "Gene" , "Volkman" ) )
main ❯ index . add RediSearch :: Document . for_object ( index , User . new ( "9998" , "Jeannie" , "Ledner" ) )
main ❯ index . search ( "john" )
  RediSearch ( 1.1 ms )  FT . SEARCH user_idx `john`
=> [ #<RediSearch::Document:0x00007f862e241b78 first: "Gene", last: "Volkman", document_id: "10039">,
#<RediSearch::Document:0x00007f862e2417b8 first: "Jeannie", last: "Ledner", document_id: "9998">]

Consulta de frase simple : hello AND world

 index . search ( "hello" ) . and ( "world" )

Consulta de frase exacta - hello FOLLOWED BY world

 index . search ( "hello world" )

Consulta de unión : hello OR world

 index . search ( "hello" ) . or ( "world" )

Consulta de negación - hello AND NOT world

 index . search ( "hello" ) . and . not ( "world" )

Intersecciones y uniones complejas:

 # Intersection of unions
index . search ( index . search ( "hello" ) . or ( "halo" ) ) . and ( index . search ( "world" ) . or ( "werld" ) )
# Negation of union
index . search ( "hello" ) . and . not ( index . search ( "world" ) . or ( "werld" ) )
# Union inside phrase
index . search ( "hello" ) . and ( index . search ( "world" ) . or ( "werld" ) )

Todos los términos admiten algunas opciones que se pueden aplicar.

Términos de prefijo : coincide con todos los términos que comienzan con un prefijo. (Parecido al like term% en SQL)

 index . search ( "hel" , prefix : true )
index . search ( "hello worl" , prefix : true )
index . search ( "hel" , prefix : true ) . and ( "worl" , prefix : true )
index . search ( "hello" ) . and . not ( "worl" , prefix : true )

Términos opcionales : los documentos que contengan los términos opcionales tendrán una clasificación más alta que aquellos que no los contengan.

 index . search ( "foo" ) . and ( "bar" , optional : true ) . and ( "baz" , optional : true )

Términos difusos : los partidos se realizan en función de la distancia de Levenshtein (LD). La distancia máxima de Levenshtein admitida es 3.

 index . search ( "zuchini" , fuzziness : 1 )

Los términos de búsqueda también se pueden limitar a campos específicos mediante una cláusula where :

 # Simple field specific query
index . search . where ( name : "john" )
# Using where with options
index . search . where ( first : "jon" , fuzziness : 1 )
# Using where with more complex query
index . search . where ( first : index . search ( "bill" ) . or ( "bob" ) )

La búsqueda de campos numéricos requiere un rango:

 index . search . where ( number : 0 .. 100 )
# Searching to infinity
index . search . where ( number : 0 .. Float :: INFINITY )
index . search . where ( number : - Float :: INFINITY .. 0 )

Cláusulas a nivel de consulta

slop(level)
- Permitimos un máximo de N número intermedio de compensaciones no coincidentes entre términos de frase. (es decir, la pendiente para frases exactas es 0)
in_order
- Generalmente se usa junto con slop . Nos aseguramos de que los términos de la consulta aparezcan en el mismo orden en el Document que en la consulta, independientemente de las compensaciones entre ellos.
no_content
- Solo devuelva los identificadores Document y no el contenido. Esto es útil si RediSearch se utiliza en un modelo Rails donde los atributos Document no importan y se están convirtiendo en objetos ActiveRecord .
language(language)
- Stemmer que se utilizará para el idioma proporcionado durante la búsqueda de expansión de consultas. Si consulta Document en chino, debe configurarlo en chino para tokenizar correctamente los términos de la consulta. Si se envía un idioma no compatible, el comando devuelve un error.
sort_by(field, order: :asc)
- Si el campo proporcionado es un campo ordenable, los resultados se ordenan por el valor de este campo. Esto se aplica tanto a campos de texto como numéricos. Los pedidos disponibles son :asc o :desc
limit(num, offset = 0)
- Limite los resultados al num especificado en el offset . El límite predeterminado está establecido en 10 .
count
- Devuelve el número de Document encontrados en la consulta de búsqueda.
highlight(fields: [], opening_tag: "<b>", closing_tag: "</b>")
- Utilice esta opción para dar formato a las apariciones de texto coincidente. fields son una serie de campos que se resaltarán.
verbatim
- No intente utilizar derivaciones para ampliar la consulta, sino busque los términos de la consulta palabra por palabra.
no_stop_words
- No filtre palabras vacías de la consulta.
with_scores
- Incluir la puntuación interna relativa de cada Document . Esto se puede utilizar para fusionar resultados de varias instancias. Esto agregará un método score a las instancias Document devueltas.
return(*fields)
- Limite qué campos del Document se devuelven.
explain
- Devuelve el plan de ejecución de una consulta compleja. En la respuesta devuelta, un + en un término es una indicación de derivación.

corrector ortográfico

La revisión ortográfica se inicia desde una instancia RediSearch::Index y proporciona sugerencias para términos de búsqueda mal escritos. Se necesita un argumento distance opcional que es la distancia máxima de Levenshtein para sugerencias de ortografía. Devuelve una matriz donde cada elemento contiene sugerencias para cada término de búsqueda y una puntuación normalizada basada en sus apariciones en el índice.

 main ❯ index = RediSearch :: Index . new ( "user_idx" ) { text_field :name , phonetic : "dm:en" }
main ❯ index . spellcheck ( "jimy" )
  RediSearch ( 1.1 ms )  FT . SPELLCHECK user_idx jimy DISTANCE 1
  => [ #<RediSearch::Spellcheck::Result:0x00007f805591c670
    term : "jimy" ,
    suggestions :
     [ #<struct RediSearch::Spellcheck::Suggestion score=0.0006849315068493151, suggestion="jimmy">,
      #<struct RediSearch::Spellcheck::Suggestion score=0.00019569471624266145, suggestion="jim">]>]
main ❯ index . spellcheck ( "jimy" , distance : 2 ) . first . suggestions
  RediSearch ( 0.5 ms )  FT . SPELLCHECK user_idx jimy DISTANCE 2
=> [ #<struct RediSearch::Spellcheck::Suggestion score=0.0006849315068493151, suggestion="jimmy">,
 #<struct RediSearch::Spellcheck::Suggestion score=0.00019569471624266145, suggestion="jim">]

Integración de rieles

¡La integración con Rails es súper fácil! Llame redi_search con el argumento de la palabra clave schema desde dentro de su modelo. Ex:

 class User < ApplicationRecord
  redi_search do
    text_field :first , phonetic : "dm:en"
    text_field :last , phonetic : "dm:en"
  end
end

Esto agregará automáticamente los métodos User.search y User.spellcheck que se comportan igual que si los llamara en una instancia Index .

User.reindex(recreate: false, only: []) también se agrega y se comporta de manera similar a RediSearch::Index#reindex . Algunas de las diferencias incluyen:

No es necesario pasar Document como primer parámetro. El alcance search_import se llama automáticamente y todos los registros se convierten a Document s.
Acepta un only parámetro opcional donde puede especificar un número limitado de campos para actualizar. Útil si modifica el esquema y solo necesita indexar un campo en particular.

Mientras define el esquema, opcionalmente puede pasarle un bloque. Si no se pasa ningún bloque, el name se llamará en el modelo para obtener el valor. Si se pasa un bloque, el valor del campo se obtiene llamando al bloque.

 class User < ApplicationRecord
  redi_search do
    text_field :name do
      " #{ first_name } #{ last_name } "
    end
  end
end

Puede anular el alcance search_import en el modelo para acelerar las relaciones de carga al indexar o puede usarse para limitar los registros a indexar.

 class User < ApplicationRecord
  scope :search_import , -> { includes ( :posts ) }
end

Al buscar, de forma predeterminada se devuelve una colección de Document . Llamar #results en la consulta de búsqueda ejecutará la búsqueda y luego buscará todos los registros encontrados en la base de datos y devolverá una relación ActiveRecord.

El nombre Index predeterminado para Index de modelo es #{model_name.plural}_#{RediSearch.env} . El método redi_search toma un argumento index_prefix opcional que se antepone al nombre del índice:

 class User < ApplicationRecord
  redi_search index_prefix : 'prefix' do
    text_field :first , phonetic : "dm:en"
    text_field :last , phonetic : "dm:en"
  end
end

User . search_index . name
# => prefix_users_development

Al integrar RediSearch en un modelo, los registros se indexarán automáticamente después de crearlos y actualizarlos y se eliminarán del Index tras su destrucción.

Hay algunos métodos más convenientes que están disponibles públicamente:

search_document
- Devuelve el registro como una instancia RediSearch::Document
remove_from_index
- Elimina el registro del Index
add_to_index
- Agrega el registro al Index
search_index
- Devuelve la instancia RediSearch::Index

Desarrollo

Después de revisar el repositorio, ejecute bin/setup para instalar las dependencias. Luego, ejecute rake test para ejecutar las pruebas unitarias y de integración. Para ejecutarlos individualmente, puede ejecutar rake test:unit o rake test:integration . También puede ejecutar bin/console para obtener un mensaje interactivo que le permitirá experimentar.

Para instalar esta joya en su máquina local, ejecute bundle exec rake install . Para lanzar una nueva versión, ejecute bin/publish (major|minor|patch) que actualizará el número de versión en version.rb , creará una etiqueta git para la versión, enviará confirmaciones y etiquetas de git y enviará el archivo .gem a rubygems. .org y GitHub.

Contribuyendo

Los informes de errores y las solicitudes de extracción son bienvenidos en GitHub. Este proyecto pretende ser un espacio seguro y acogedor para la colaboración, y se espera que los contribuyentes cumplan con el código de conducta del Pacto de Colaboradores.

Licencia

La gema está disponible como código abierto según los términos de la licencia MIT.

Código de conducta

Se espera que todos los que interactúan en las bases de código, rastreadores de problemas, salas de chat y listas de correo del proyecto RediSearch sigan el código de conducta.

Expandir