elasticsearch analysis hao herunterladen - elasticsearch analysis hao Quellcode herunterladen

elasticsearch analysis hao

Anderer Quellcode

v8.7.1

Herunterladen

HAO ES-Tokenizer

Einführung

Ein Elasticsearch-Plug-in zur Segmentierung chinesischer Wörter.

QQ-Kommunikationsgruppe: 743457803

Hier erfahren Sie , wie Sie ein ES-Wortsegmentierungs-Plug-in entwickeln.

Bezieht sich hauptsächlich auf IK und HanLP

Merkmal

Unterstützt komplexe chinesische Zeichen . Einige chinesische Zeichen haben in Java eine andere Länge als 1 ? aber IK und andere unterstützen sie nicht.
Die Wortsegmentierung und -suche nach einzelnen Wörtern wird unterstützt, ik_max_word Modus wird jedoch nicht unterstützt.
Unterstützt die Segmentierung benutzerdefinierter Wortlängen und eignet sich zur Identifizierung von Personennamen in kurzen Texten.

Durch Leerzeichen, Satzzeichen, Buchstaben, Zahlen usw. getrennter Text mit chinesischen Schriftzeichen <=autoWordLength wird automatisch als ein Wort erkannt.

Unterstützt die Emoji-Suche
Im Vergleich zu IK ist es intelligenter und genauer als IK.
- Beispiel: IK ik_max_word listet beispielsweise alle möglichen Wörter umfassend auf, was dazu führt, dass einige irrelevante Suchanfragen gefunden werden. Es stellt sich heraus, dass das任性冲动过任性性冲动动过. Wenn Sie also nach „性冲动suchen, wird nach diesem Dokument gesucht.南京市长江大桥, das Ergebnis ist南京市市长长江大桥, dann sucht die Suche nach市长nach diesem Dokument, der Hao-Wortsegmentierer jedoch nicht. Er berechnet den kürzesten Weg durch die Worthäufigkeit und identifiziert die Phrase mit der höchsten Wahrscheinlichkeit. Sie können die Worthäufigkeit auch nach Belieben an Ihre eigene Szene anpassen.
Das Wortsegmentierungsergebnis von ik_smart ist keine Teilmenge von ik_max_word, und das Wortsegmentierungsergebnis von hao_search_mode ist eine Teilmenge des Wortsegmentierungsergebnisses von hao_index_mode
Im Vergleich zu HanLp ist die Wortsegmentierung leichter und kontrollierbarer . Es verfügt nicht über einige intelligente Vorhersagefunktionen wie Namen, was zu einer instabilen und ungenauen Wortsegmentierung führen kann. und die vorhergesagten Ergebnisse der Wortsegmentierung sind ebenfalls unterschiedlich. Und HanLP verfügt nicht über ein offizielles ES-Plugin.
Berechnen Sie den kürzesten Weg basierend auf der Worthäufigkeit und zählen Sie mögliche Wörter anstelle aller Wörter auf. Wenn die aufgezählten Wörter falsch sind, können Sie die Worthäufigkeit anpassen, um sie zu korrigieren. Die Worthäufigkeitsdatei ist eine txt Datei mit besserer Lesbarkeit .
Metawörter werden unterstützt. Beispielsweise wird俄罗斯nicht mehr in俄und罗斯aufgeteilt (罗斯ist ein gebräuchlicher Personenname). Auf diese Weise ruft罗斯keine Dokumente mit Bezug zu俄罗斯zurück
Die Wortart wird jedoch nicht unterstützt

Stellen Sie einen Analysator bereit: hao_search_mode , hao_index_mode Tokenizer: hao_search_mode , hao_index_mode

Versionen

Git-Tag	ES-Version
Master	ES neueste stabile Version
v7.17.1	7.17.1
vX.YZ	XYZ

verwenden

Installieren

Methode 1. bin/elasticsearch-plugin install file:///Users/xiaoming/Download/analysis-hao.zip

Methode 2. Platzieren Sie es nach der Dekomprimierung im es-Plugins-Verzeichnis. Stellen Sie sicher, dass es sich um die folgende Verzeichnisstruktur handelt {ES_HOME}/plugins/analysis-hao/(各种jar等文件) . Dateien.

Starten Sie abschließend ES neu

Upgrade der ES-Version

Wenn Sie keine entsprechende ES-Version benötigen, müssen Sie einige Stellen ändern:

Ändern Sie den Wert von pom.xml -> elasticsearch.version auf die entsprechende Version.
Kompilieren und ändern Sie den Code entsprechend der Fehlerantwort. Es kann beispielsweise eine Konstruktormethode von HaoTokenizerFactory.java geben. Führen Sie abschließend mvn clean package -Dmaven.test.skip=true aus, um das zip Installationspaket des Plug-Ins abzurufen.

Tokenizer

Die folgenden Konfigurationselemente sind für benutzerdefinierte Wortsegmentierer verfügbar:

Parameter

Konfigurationselementparameter	Funktion	Standardwert
`enableIndexMode`	Ob der Indexmodus verwendet werden soll, der Indexmodus ist feinkörnig.	`hao_search_mode` ist `false` , `hao_index_mode` ist `true` , feine Granularität ist für Begriffsabfragen geeignet und grobe Granularität ist für Phrasenabfragen geeignet
`enableFallBack`	Wenn bei der Wortsegmentierung ein Fehler gemeldet wird, wird angegeben, ob die feinkörnige Wortsegmentierung gestartet werden soll, d. h. die Segmentierung nach Zeichen. Es wird empfohlen, `search_mode` zu verwenden, um die Benutzersuche nicht zu beeinträchtigen. `index_mode` wird nicht gestartet, damit Fehleralarmbenachrichtigungen rechtzeitig gemeldet werden können.	`false` startet kein Downgrade
`enableFailDingMsg`	Ob die DingTalk-Benachrichtigung über einen Fehler gestartet werden soll, die Benachrichtigungsadresse ist das Feld `dingWebHookUrl` von `HttpAnalyzer.cfg.xml` .	`false`
`enableSingleWord`	Ob feinkörnige zurückgegebene Wörter verwendet werden sollen. Beispielsweise speichert das Ergebnis der Wortsegmentierung nur`体力值体力值体力`, aber nicht den`值`	`false`
`autoWordLength`	Durch Leerzeichen, Satzzeichen, Buchstaben, Zahlen usw. getrennter Text mit chinesischen Schriftzeichen, dessen Länge kürzer als `autoWordLength` ist, wird automatisch als ein Wort erkannt. Standardmäßig ist -1 nicht aktiviert, >=2 gilt als aktiviert	`-1`

Einführung in den integrierten Tokenizer

hao_index_mode

Wörter werden rekursiv basierend auf den Begriffen und Gewichtungen des Vokabulars segmentiert, bis das Wort untrennbar ist. Wenn enableSingleWord=true gesetzt ist, wird es in einzelne Wörter aufgeteilt.

Zum Beispiel dieser Text南京市长江大桥

南京市长江大桥==>南京市,长江大桥
南京市==>南京,市,长江大桥==>长江,大桥
Wenn enableSingleWord=false ist, stoppt die Rekursion und die Wortsegmentierung wird als南京市,南京,市,长江大桥,长江,大桥erhalten
Wenn enableSingleWord=true ist, setzen Sie die Rekursion bis zur Einzelwortposition fort und erhalten Sie die Wortsegmentierung als南京市,南京,南,京,市大长江大桥, Yangtze River,长江长江,大桥,桥

hao_search_mode

In diesem Modus entspricht er nur einmal rekursiv dem hao_index_mode -Modus. Das Ergebnis der Wortsegmentierung ist南京市,长江大桥. Da in diesem Modus enableIndexMode=false in true geändert wird, hat es den gleichen Effekt wie hao_index_mode .

HaoAnalyzer.cfg.xml-Konfiguration

Parameter	Funktion	Bemerkung
`baseDictionary`	Grundlegender Name der Wörterbuchdatei	Platzieren Sie es im Plug-in `config` oder im es `config` , ohne es zu ändern.
`customerDictionaryFile`	Benutzerdefinierte Remote-Lexikondatei, mehrere Dateien durch englisches Semikolon getrennt;	Es wird im Plug-in `config` oder im es `config` gespeichert.
`remoteFreqDict`	Remote-benutzerdefinierte Vokabeldatei	Praktisches Hot-Update: Hot-Update wird regelmäßig über die folgenden zwei Parameter aktualisiert.
`syncDicTime`	Die nächste Synchronisierungszeit des Remote-Wörterbuchs `hh:mm:ss`	Lassen Sie es leer und verwenden Sie `syncDicPeriodTime` als nächste Synchronisierungszeit.
`syncDicPeriodTime`	Zeitintervall für die Synchronisierung des Remote-Wörterbuchs, Sekunden, Mindestwert 30	Beispiel: `syncDicTime=20:00:00,syncDicPeriodTime=86400` , es wird jeden Tag um 20 Uhr synchronisiert
`dingWebHookUrl`	DingTalk-Roboter-URL	Wird für Wortsegmentierungsausnahmen und Synchronisierungsthesaurus-Ausnahme-/Erfolgsbenachrichtigungen verwendet
`dingMsgContent`	Texterstellung für Roboterbenachrichtigungen	Beachten Sie, dass bei der Konfiguration des DingTalk-Roboters die Schlüsselwörter mit dieser Kopie übereinstimmen müssen, da sonst die Nachricht nicht gesendet werden kann.

Lexikonbeschreibung

Das Verzeichnis {ES_HOME}/config/analysis-hao/ wird zuerst gelesen und die Dateien im Verzeichnis {ES_HOME}/plugins/analysis-hao/config werden nicht gelesen.

Basiswörterbuch Das Basiswörterbuch ist base_dictionary.txt , durch Kommas getrennt, und die folgende Zahl gibt die Worthäufigkeit an. Beispiel: Das Ergebnis der Wortsegmentierung von奋发图强ist奋,发图,强. Da die Worthäufigkeit des Wortes发图zu hoch ist (aufgrund der hohen Häufigkeit), können Sie die Worthäufigkeit reduzieren und base_dictionary.txt Datei.
Das benutzerdefinierte Remote-Lexikon wird regelmäßig entsprechend der konfigurierten Zeit und dem konfigurierten Zeitraum ausgeführt. Nachdem die Aktualisierung aus dem Remote-Wörterbuch abgeschlossen ist, wird die aktuelle customerDictionaryFile automatisch überschrieben. Das Dateiformat des Remote -Lexikons ist {词},{词频},{是否元词} , zum Beispiel俄罗斯,1000,1 . Erklärung, ob es sich um ein Metawort handelt oder nicht: 1 bedeutet, dass es ein Metawort ist und nicht weiter aufgeteilt wird.俄罗斯wird nicht in俄und罗斯aufgeteilt (Russ ist ein gebräuchlicher Name). Auf diese Weise wird罗斯keine Dokumente mit Bezug zu俄罗斯zurückrufen. 0 bedeutet, dass Sie es weiter abbauen können, indem Sie beispielsweise奋发图强
Ob das Remote-Wörterbuch neu geladen wird, hängt davon ab, ob sich mindestens eines der beiden Felder im HTTP-Header-Request-Header geändert hat. Die beiden Felder sind: Last-Modified und ETag.

Beispiel-Index-Demo

Build-Index:

 PUT test/
{
  "settings": {
    "index": {
      "analysis": {
        "analyzer": {
          "search_analyzer": {
            "filter": [
              "lowercase"
            ],
            "char_filter": [
              "html_strip"
            ],
            "type": "custom",
            "tokenizer": "my_search_token"
          },
          "index_analyzer": {
            "filter": [
              "lowercase"
            ],
            "char_filter": [
              "html_strip"
            ],
            "type": "custom",
            "tokenizer": "my_index_token"
          }
        },
        "tokenizer": {
          "my_index_token": {
            "enableFailDingMsg": "true",
            "type": "hao_index_mode",
            "enableSingleWord": "true",
            "enableFallBack": "true",
            "autoWordLength": 3
          },
          "my_search_token": {
            "enableFailDingMsg": "true",
            "type": "hao_search_mode",
            "enableSingleWord": "true",
            "enableFallBack": "true",
            "autoWordLength": 3
          }
        }
      },
      "number_of_replicas": "0"
    }
  },
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "index_options": "offsets",
        "analyzer": "index_analyzer",
        "search_analyzer": "search_analyzer"
      }
    }
  }
}

Testen Sie die Wortsegmentierung

 test/_analyze
{
  "analyzer": "index_analyzer",
  "text": "徐庆年 奋发图强打篮球有利于提高人民生活，有的放矢，中华人民共和国家庭宣传委员会宣。?"
}

test/_analyze
{
  "analyzer": "search_analyzer",
  "text": "徐庆年 奋发图强打篮球有利于提高人民生活，有的放矢，中华人民共和国家庭宣传委员会宣。?"
}

徐庆年ist nicht im Vokabular enthalten, wird aber über autoWordLength als Wort erkannt.

Expandieren

Zusätzliche Informationen