elasticsearch_tutorial herunterladen - elasticsearch

elasticsearch_tutorial

Anderer Quellcode

1.0.0

Herunterladen

Haftungsausschluss

Dieses Tutorial wurde für ElasticSearch Version 5.2 erstellt. Version 5 bietet eine Reihe wichtiger Änderungen in Bezug auf Abfrage-DSL und Mapping.

Wenn Sie noch Version 2.x verwenden, schauen Sie sich bitte den v2-Zweig dieses Repositorys an .

ElasticSearch-Beispiele

Ich habe eine Reihe von Beispielen zusammengestellt, um die Funktionen und die Leistungsfähigkeit von ElasticSearch zu veranschaulichen. Viele der Informationen basieren auf „ElasticSearch, The Definitive Guide“.

Installieren

Laden Sie ElasticSearch & Kibana hier herunter und befolgen Sie dann diese einfachen Schritte:

Installieren Sie sowohl ElasticSearch als auch Kibana.
Führen Sie ElasticSearch ./bin/elasticsearch aus
Führen Sie Kibana ./bin/kibana aus
Verwenden Sie die Kibana-Konsole, indem Sie auf http://localhost:5601/app/kibana#/dev_tools/console zugreifen

Übung 1: die Grundlagen

Übung 1 ist sehr einfach und das Ziel besteht darin, sich mit der ElasticSearch-RESTFul-Schnittstelle vertraut zu machen.

Themen:

Navigieren zur ElasticSearch-Landingpage
Alle Dokumente durchsuchen
Dokumente zählen
Dokumente zum Index hinzufügen
Vollständige Dokumentaktualisierungen
Teilweise Dokumentaktualisierungen
Einzelne Dokumente abrufen
Durchsuchen aller Dokumente nach einem bestimmten Index

Belastungsübung 1

Übung 2: Daten in großen Mengen laden

In Übung 2 werden wir viele Daten indizieren. Um die Leistung zu verbessern, führen wir dies in großen Mengen durch.

Diese Daten enthalten Informationen aus dem Combell-Blog. Ich habe die folgenden Informationen indiziert:

Titel
Autor
Datum
Kategorien
Sprache
GUID

Diese Daten werden in den anderen Übungen verwendet.

Laden Sie die Blog-Daten in großen Mengen

Übung 3: Suche, Kennenlernen der Abfrage DSL

In Übung 3 führen wir einige grundlegende Abfragen mit der ElasticSearch-Abfrage-DSL durch. Das DSL ist JSON-basiert und die Abfragen sind Volltextsuchen.

Hier sind einige Suchanfragen, die wir durchführen:

Suchen Sie in einem Index nach einem einzelnen Begriff
Suchen Sie nach mehreren Begriffen in einem Index
Führen Sie Suchen nach mehreren Begriffen mit dem „und“ -Operator durch
Definieren Sie die Mindestanzahl an Übereinstimmungen, die ein Dokument haben sollte
Definieren Sie die Nähe der gesuchten Begriffe

Belastungsübung 3

Übung 4: Analyse

In Übung 4 konzentrieren wir uns auf die Analyse von Volltext und menschlicher Sprache. Wir ignorieren die Datenbankfunktionen von ElasticSearch, werfen etwas Text darauf und sehen, wie die Daten tokenisiert werden.

Abhängig vom verwendeten Analysegerät tokenisiert und speichert ElasticSearch die Daten auf unterschiedliche Weise. Keine Sorge, die Originaldaten bleiben in der Quelle des Dokuments, es ist der invertierte Index, der sich ändert.

Belastungsübung 4

Übung 5: Schemalos? Nicht wirklich.

In Übung 5 dreht sich alles um das Schema eines Index. ElasticSearch wird als schemalos vermarktet. Tatsächlich errät ElasticSearch das Schema für Sie.

Ich zeige Ihnen Beispiele, bei denen es erfolgreich rät, und Beispiele, bei denen es nicht gelingt.

Belastungsübung 5

Übung 6: Mapping

Um zu vermeiden, dass ElasticSearch das Schema falsch errät, ist eine explizite Zuordnung eine gute Idee. In Übung 6 wird das richtige Mapping für unser Blog-Beispiel eingerichtet und die Daten erneut eingefügt.

Ganzzahlen und Zeichenfolgen werden entsprechend definiert und das Datum hat das richtige Format.

Die explizite Zuordnung wird in Übung 7 verwendet.

Belastungsübung 6

Übung 7: Suche mit expliziter Zuordnung

Die beiden Suchvorgänge in Übung 5, die fehlgeschlagen sind, werden nun erneut ausgeführt. Dank der expliziten Zuordnung ist die Ausgabe korrekt.

Abfrage 1 gibt nichts zurück, da der Bereich nicht übereinstimmt
Die Abfragen 2 und 3 geben die Dokumente zurück, die in den Datenbereich passen

Belastungsübung 7

Übung 8: Nicht analysierte Felder

In Übung 8 definieren wir eine weitere Zuordnung in unserem Blog-Index. Diese Zuordnung behandelt nur das Feld „Titel“ als Volltext. Der Rest der Zeichenfolgen wird nicht analysiert und tokenisiert. Sie werden „wie sie sind“ gespeichert.

Diese Daten werden in Übung 9 verwendet.

Belastungsübung 8

Übung 9: Filter, Volltext vs. exakte Werte

In Übung 9 zeige ich Ihnen den Unterschied zwischen Volltextsuchen mit Abfragen und exakten Wertübereinstimmungen mit Abfragen im Filtermodus.

Die Zuordnung, die in Übung 8 durchgeführt wurde, hat dafür gesorgt, dass es jetzt ein „Schlüsselwort“ -Feld für die Titeleigenschaft gibt. Dies bedeutet, dass Abfragen nach „title“ als Volltextsuchen behandelt werden und boolesche Filter nach dem regulären Feld „title.keyword“ als exakte Wertübereinstimmungen behandelt werden.

In einem der Beispiele zeige ich Ihnen auch, wie Sie mehrere Abfragen und Filter kombinieren.

Das machen wir in dieser Übung:

Verwenden Sie eine Präfixabfrage im Filterkontext, um eine Platzhaltersuche durchzuführen, auch wenn die Felder nicht analysiert werden
Führen Sie eine Standardabfrage über das Feld „Schlüsselwort“ durch
Verwenden Sie eine boolesche Abfrage im Filtermodus, um mehrere Filter basierend auf den Operatoren „und“ , „oder“ und „nicht“ zu kombinieren
Verwenden Sie eine reguläre boolesche Abfrage und beobachten Sie, wie sich das Verhalten der (should) -Klausel ändert

Belastungsübung 9

Übung 10: Sprachbasiertes Mapping

Wir werden die Daten noch einmal neu zuordnen. Dieses Mal behandeln wir die Eigenschaft „title“ als analysiertes Feld. Standardmäßig wird der „Standard“ -Analysator verwendet. Da unsere Daten sowohl auf Niederländisch als auch auf Englisch vorliegen, habe ich zwei Felder hinzugefügt:

Das „en“ verwendet explizit den englischen Analysator
Das „nl“ verwendet explizit den niederländischen Analysator

Dies ist die endgültige Version des Mappings. Die anderen Beispiele verwenden diese Zuordnung und Daten.

Belastungsübung 10

Übung 11: Sprachen nutzen

In Übung 11 geht es um die Analyse von Texten anhand der Sprache. Übung 4 war ein Hinweis zur Datenanalyse. Jetzt führen wir tatsächlich Suchvorgänge durch, die auf der Sprachanalyse basieren.

Abfrage 1 sucht in der Eigenschaft „title “ nach dem Begriff „work “.
Abfrage 2 sucht nach dem Begriff „work“ im Feld „title.en“ (das den englischen Analysator verwendet).
Abfrage 3 sucht nach dem Begriff „werk“ in der Eigenschaft „title“.
Abfrage 4 sucht nach dem Begriff „werk“ im Feld „title.nl“ (das den niederländischen Analysator verwendet).

Belastungsübung 11

Übung 12: Geodaten

In Übung 12 erstellen wir einen neuen „Städte“ -Index, der alle Städte enthält, die in der belgischen Provinz West-Vlaanderen liegen. Der Index speichert den Namen der Stadt und ihre Geokoordinaten.

Die explizite Zuordnung und die Daten werden in anderen Übungen verwendet.

Belastungsübung 12

Übung 13: Geosuchen

In der vorherigen Übung haben wir einen neuen Index erstellt und einige Geodaten indiziert. In Übung 13 werden wir tatsächlich Suchvorgänge für diese Daten durchführen.

Es werden 2 Abfragen vorgestellt:

Eine Abfrage, die alle Städte im Umkreis von 5 km um Diksmuide anzeigt
Eine Abfrage, die alle Städte anzeigt, die sich in einem bestimmten Begrenzungsrahmen (zwischen Koksijde und Nieuwpoort) befinden.

Belastungsübung 13

Übung 14: Aggregationsdaten

In Übung 14 laden wir Daten in einen weiteren Index. Dieser Index heißt „Autos“ und enthält Informationen zu Autoverkäufen. Bei jeder Transaktion werden die folgenden Informationen erfasst:

Der Verkaufspreis
Die Marke des verkauften Autos
Die Farbe des Autos
Die Daten des Verkaufs

Diese Informationen werden in Übung 15 verwendet.

Belastungsübung 14

Übung 15: Aggregationen durchführen

Aggregationen sind eine sehr leistungsstarke Funktion von ElasticSearch. Es ist im Grunde wie „Gruppieren nach“ in SQL, aber viel leistungsfähiger. Aggregationen sind der Grund, warum ElasticSearch in der Big-Data- und Data-Science-Community so beliebt ist.

Dies sind die Aggregationen, die wir in dieser Übung ausführen:

Holen Sie sich die 10 beliebtesten Autoren des Combell-Blogs
Holen Sie sich die 10 beliebtesten Autoren des Combell-Blogs und zeigen Sie an, wie viele Beiträge sie in jeder Sprache geschrieben haben
Erhalten Sie alle auf Niederländisch verfassten Blogbeiträge, die im Jahr 2016 veröffentlicht wurden. Verwenden Sie Aggregationen, um die Menge pro Monat anzuzeigen
Holen Sie sich die Top 3 der beliebtesten Autos
Ermitteln Sie den Durchschnittspreis eines verkauften Autos
Erhalten Sie erweiterte Statistiken zum Preis eines verkauften Autos
Ermitteln Sie den Gesamtumsatz für Autos pro Preisklasse mit einem Intervall von 20.000 USD
Berechnen Sie den Durchschnittspreis eines Ford im Vergleich zum Gesamtdurchschnittspreis aller verkauften Autos

Belastungsübung 15

Expandieren

Zusätzliche Informationen