Was ist chinesische Wortsegmentierung?
Was ist Wortsegmentierung? Was ist der Unterschied zwischen chinesischer Wortsegmentierung und anderen Wortsegmentierungen? Wortsegmentierung ist der Prozess der Neukombination kontinuierlicher Wortsequenzen in Wortsequenzen gemäß bestimmten Spezifikationen. Aus dem obigen Beispiel können wir ersehen, dass in der englischen Schrift Leerzeichen als natürliche Trennzeichen zwischen Wörtern verwendet werden, während im Chinesischen nur Wörter, Sätze und Absätze durch offensichtliche Trennzeichen getrennt werden können Englisch hat auch das Problem, Phrasen auf Wortebene zu unterteilen. Wie wir anhand des obigen Beispiels sehen können, ist Chinesisch viel komplizierter und schwieriger als Englisch.
Derzeit gibt es drei gängige chinesische Wortsegmentierungsalgorithmen:
1. Wortsegmentierungsmethode basierend auf String-Matching
Diese Methode wird auch als mechanische Wortsegmentierungsmethode bezeichnet. Sie gleicht die zu analysierende chinesische Zeichenfolge mit den Einträgen in einem „ausreichend großen“ Maschinenwörterbuch nach einer bestimmten Strategie ab erfolgreich. (Ein Wort erkennen). Je nach Scanrichtung kann die String-Matching-Wortsegmentierungsmethode in Vorwärts-Matching und Reverse-Matching unterschiedlicher Länge unterteilt werden, sie kann entsprechend in maximale (längste) Übereinstimmung und minimale (kürzeste) Übereinstimmung unterteilt werden Ob es mit dem Teil-der-Sprache-Tagging-Prozess zusammenhängt, kann in eine einfache Wortsegmentierungsmethode und eine integrierte Methode, die Wortsegmentierung und Annotation kombiniert, unterteilt werden. Einige häufig verwendete Methoden zur mechanischen Wortsegmentierung sind wie folgt:
1) Vorwärts-Maximum-Matching-Methode (Richtung von links nach rechts);
2) Inverse Maximum-Matching-Methode (Richtung von rechts nach links);
3) Minimale Segmentierung (minimieren Sie die Anzahl der Wörter in jedem Satz).
Die verschiedenen oben genannten Methoden können auch miteinander kombiniert werden. Beispielsweise können die Vorwärts-Maximum-Matching-Methode und die Reverse-Maximum-Matching-Methode zu einer Zwei-Wege-Matching-Methode kombiniert werden. Aufgrund der Merkmale der chinesischen Einzelzeichen-Wortbildung werden Vorwärts-Minimum-Matching und Reverse-Minimum-Matching im Allgemeinen selten verwendet. Im Allgemeinen ist die Segmentierungsgenauigkeit des Reverse-Matchings etwas höher als die des Forward-Matchings und es treten weniger Mehrdeutigkeiten auf. Statistische Ergebnisse zeigen, dass die Fehlerrate bei der einfachen Verwendung des Vorwärts-Maximum-Matchings 1/169 beträgt und die Fehlerrate bei der einfachen Verwendung des Rückwärts-Maximum-Matchings 1/245 beträgt. Diese Genauigkeit entspricht jedoch bei weitem nicht den tatsächlichen Anforderungen. Die tatsächlich verwendeten Wortsegmentierungssysteme verwenden alle die mechanische Wortsegmentierung als vorläufige Segmentierungsmethode, und es ist notwendig, die Genauigkeit der Segmentierung durch die Verwendung verschiedener anderer linguistischer Informationen weiter zu verbessern.
Eine Methode besteht darin, die Scanmethode zu verbessern, die als Merkmalsscan oder Markierungssegmentierung bezeichnet wird. Dabei wird die Identifizierung und Segmentierung einiger Wörter mit offensichtlichen Merkmalen in der zu analysierenden Zeichenfolge priorisiert. Mithilfe dieser Wörter kann die ursprüngliche Zeichenfolge in mechanische Wörter unterteilt werden Für kleinere Zeichenfolgen wird eine Segmentierung durchgeführt, um die Übereinstimmungsfehlerrate zu verringern. Eine andere Methode besteht darin, Wortsegmentierung und Teil-of-Speech-Tagging zu kombinieren, umfangreiche Teil-of-Speech-Informationen zu verwenden, um Wortsegmentierungsentscheidungen zu unterstützen, und wiederum die Wortsegmentierungsergebnisse während des Tagging-Prozesses zu überprüfen und anzupassen, wodurch die Genauigkeit erheblich verbessert wird Segmentierung.
2. Wortsegmentierungsmethode basierend auf Verständnis
Diese Wortsegmentierungsmethode erzielt den Effekt der Worterkennung, indem sie es dem Computer ermöglicht, das menschliche Verständnis von Sätzen zu simulieren. Die Grundidee besteht darin, beim Segmentieren von Wörtern eine syntaktische und semantische Analyse durchzuführen und syntaktische und semantische Informationen zu verwenden, um mit Mehrdeutigkeiten umzugehen. Es besteht normalerweise aus drei Teilen: dem Wortsegmentierungs-Subsystem, dem Syntax- und Semantik-Subsystem und dem Gesamtkontrollteil. Unter der Koordination des Gesamtsteuerungsteils kann das Wortsegmentierungs-Subsystem syntaktische und semantische Informationen über Wörter, Sätze usw. erhalten, um die Mehrdeutigkeit der Wortsegmentierung zu beurteilen, dh es simuliert den Prozess des menschlichen Verständnisses von Sätzen. Diese Wortsegmentierungsmethode erfordert den Einsatz einer großen Menge an Sprachkenntnissen und Informationen. Aufgrund der Allgemeingültigkeit und Komplexität der chinesischen Sprachkenntnisse ist es schwierig, verschiedene Sprachinformationen in einer Form zu organisieren, die von Maschinen direkt gelesen werden kann. Daher befindet sich das auf Verständnis basierende Wortsegmentierungssystem noch im experimentellen Stadium.
3. Wortsegmentierungsmethode basierend auf Statistiken
Aus formaler Sicht sind Wörter stabile Wortkombinationen. Je öfter benachbarte Wörter also im Kontext gleichzeitig vorkommen, desto wahrscheinlicher ist es, dass sie ein Wort bilden. Daher kann die Häufigkeit oder Wahrscheinlichkeit des gleichzeitigen Vorkommens benachbarter Wörter zwischen Wörtern die Glaubwürdigkeit des Wortes besser widerspiegeln. Die Häufigkeit von Kombinationen benachbarter Wörter, die im Korpus gleichzeitig vorkommen, kann gezählt und Informationen über ihr gegenseitiges Vorkommen berechnet werden. Definieren Sie die Informationen zum gegenseitigen Vorkommen zweier Zeichen und berechnen Sie die Wahrscheinlichkeit des benachbarten gemeinsamen Vorkommens zweier chinesischer Zeichen X und Y. Die Informationen zum gegenseitigen Vorkommen spiegeln die Nähe der Kombinationsbeziehung zwischen chinesischen Schriftzeichen wider. Wenn die Nähe einen bestimmten Schwellenwert überschreitet, kann davon ausgegangen werden, dass diese Wortgruppe möglicherweise ein Wort bildet. Diese Methode muss nur die Häufigkeit von Wortgruppen im Korpus zählen und das Wörterbuch nicht segmentieren. Daher wird sie auch als wörterbuchfreie Wortsegmentierungsmethode oder statistische Wortextraktionsmethode bezeichnet. Allerdings weist diese Methode auch bestimmte Einschränkungen auf. Oftmals werden einige häufig verwendete Wortgruppen extrahiert, die häufig vorkommen, aber keine Wörter sind, z. B. „dies“, „eins“, „einige“, „mein“, „viele“. usw., und die Erkennungsgenauigkeit gebräuchlicher Wörter ist schlecht und der Zeit- und Platzaufwand ist groß. Praktische statistische Wortsegmentierungssysteme müssen ein grundlegendes Wortsegmentierungswörterbuch (gemeinsames Wortwörterbuch) für den Zeichenfolgenabgleich und die Wortsegmentierung verwenden und gleichzeitig statistische Methoden verwenden, um einige neue Wörter zu identifizieren, dh Zeichenfolgenhäufigkeitsstatistiken mit Zeichenfolgenabgleichen kombinieren Es spielt nicht nur die Rolle der passenden Wortsegmentierung, sondern verwendet auch statistische Methoden, um einige neue Wörter zu identifizieren. Es zeichnet sich durch schnelle Segmentierung und hohe Effizienz aus und nutzt auch die wörterbuchfreie Wortsegmentierung und Kontexterkennung, um neue Wörter zu identifizieren Unklarheiten automatisch beseitigen.
Einige Punkte, die Sie bei Partizipien beachten sollten:
1. Die Zeitleistung des Wortsegmentierungsalgorithmus ist relativ hoch. Gerade die heutige Websuche stellt hohe Echtzeitanforderungen. Daher muss die Wortsegmentierung, die die Grundlage der chinesischen Informationsverarbeitung darstellt, zunächst so wenig Zeit wie möglich in Anspruch nehmen.
2. Die Verbesserung der Wortsegmentierungsgenauigkeit führt nicht unbedingt zu einer Verbesserung der Abrufleistung. Sobald die Wortsegmentierung eine bestimmte Genauigkeit erreicht, sind die Auswirkungen auf den Informationsabruf auf Chinesisch nicht mehr offensichtlich. Obwohl es immer noch einige Auswirkungen gibt, ist dies nicht mehr der Leistungsengpass von CIR. Daher ist der einseitige Wortsegmentierungsalgorithmus, der blind eine hohe Genauigkeit anstrebt, für den groß angelegten chinesischen Informationsabruf nicht sehr geeignet. Wenn es einen Konflikt zwischen Zeit und Genauigkeit gibt, müssen wir ein geeignetes Gleichgewicht zwischen beiden finden.
3. Die Granularität der Segmentierung kann weiterhin dem Prinzip der Langwortpriorität folgen, die relevante Folgeverarbeitung muss jedoch auf der Ebene der Abfrageerweiterung durchgeführt werden. Beim Informationsabruf müssen sich Wortsegmentierungsalgorithmen nur auf die Beseitigung von Mehrdeutigkeiten konzentrieren. Bei Abdeckungsmehrdeutigkeiten können wir die sekundäre Indizierung des Wörterbuchs und die Abfrageerweiterung verwenden, um sie aufzulösen.
4. Die Genauigkeit der Erkennung nicht registrierter Wörter ist wichtiger als die Rückrufrate. Es muss sichergestellt werden, dass bei der Identifizierung nicht registrierter Wörter keine falschen Kombinationen vorgenommen werden, um eine Segmentierung falscher nicht registrierter Wörter zu vermeiden. Wenn einzelne Wörter fälschlicherweise zu nicht registrierten Wörtern kombiniert werden, kann das entsprechende Dokument möglicherweise nicht korrekt abgerufen werden.
Baidu-Partizip
Trennen Sie die Abfrage zunächst anhand des Trennzeichens. „Theoretische Werkzeuge zum Informationsabruf“ nach dem Partizip <Informationsabruf, Theorie, Werkzeuge>.
Überprüfen Sie dann, ob doppelte Zeichenfolgen vorhanden sind. Wenn ja, verwerfen Sie die zusätzlichen und behalten Sie nur eine. Nachdem das Wort „theoretische Werkzeugtheorie“ in <Werkzeugtheorie> unterteilt wurde, berücksichtigt GOOGLE diese Fusionsberechnung nicht.
Stellen Sie dann fest, ob es englische Wörter oder Zahlen gibt. Wenn ja, behalten Sie die englischen Wörter oder Zahlen als Ganzes bei und schneiden Sie die chinesischen Schriftzeichen davor und danach ab. Fragen Sie nach der Wortsegmentierung <Film, BT, Download> nach „Film-BT-Download“.
Wenn die Zeichenfolge nur weniger als oder gleich 3 chinesische Zeichen enthält, bleibt sie unverändert. Wenn die Länge der Zeichenfolge mehr als 4 chinesische Zeichen beträgt, macht sich das Wortsegmentierungsprogramm von Baidu an die Arbeit und unterbricht die Zeichenfolge.
Arten von Wortsegmentierungsalgorithmen: Vorwärts-Maximum-Matching, Rückwärts-Maximum-Matching, Sprachmodellmethode, Kürzester-Pfad-Algorithmus. Um zu beurteilen, ob ein Wortsegmentierungssystem gut ist oder nicht, gibt es zwei wichtige Punkte Mehrdeutigkeiten beseitigen; das andere ist die Identifizierung von Wörtern, die nicht im Wörterbuch registriert sind, zum Beispiel Namen von Personen, Orten, Organisationen usw.
Die Baidu-Wortsegmentierung verwendet mindestens zwei Wörterbücher, eines ist ein allgemeines Wörterbuch und das andere ist ein spezielles Wörterbuch (Personennamen, Ortsnamen, neue Wörter usw.). Darüber hinaus schneidet das Spezialwörterbuch es zuerst aus, und dann werden die verbleibenden Fragmente durch das gewöhnliche Wörterbuch geteilt.
Der Wortsegmentierungsalgorithmustyp von Baidu verwendet einen Zwei-Wege-Maximum-Matching-Algorithmus.
Beispiel: Abfrage „Mao Zedong Beijing Hua Yanyun“, Baidus Wortsegmentierungsergebnisse: „Mao Zedong/Beijing/Beijing Hua Yanyun“
Die Baidu-Wortsegmentierung kann die Namen von Personen identifizieren und auch „Beijing Yanyun“ identifizieren, was zeigt, dass sie die Funktion hat, Wörter zu identifizieren, die nicht im Wörterbuch registriert sind.
Fragen Sie zunächst das spezielle Wörterbuch ab (Namen von Personen, einige Ortsnamen usw.), schneiden Sie die Eigennamen aus und wenden Sie für die verbleibenden Teile eine Zwei-Wege-Wortsegmentierungsstrategie an (maximale Übereinstimmung vorwärts, maximale Übereinstimmung rückwärts). ) Die Segmentierungsergebnisse sind gleich, was bedeutet, dass es keine Mehrdeutigkeit gibt. Geben Sie die Wortsegmentierungsergebnisse direkt aus.
Wenn sie inkonsistent sind, wird das Ergebnis des kürzesten Pfads ausgegeben, d , Hua, Yanyun> Wählen Sie im Vergleich zu <Beijing Yanyun> Letzteres.
Wenn die Längen gleich sind, wählen Sie die Gruppe der Segmentierungsergebnisse mit weniger Einzelwörtern aus. „Entferntes altes Babylon“, diese Abfrage wurde von Baidu in <entferntes, altes Babylon> segmentiert, anstatt in „entferntes/altes/altes Babylon“ segmentiert zu werden.
Wenn die Wörter ebenfalls identisch sind, wählen Sie das Ergebnis der vorwärts gerichteten Wortsegmentierung aus. Abfrage „Wang Qiang Xiao:“, Baidu segmentiert sie in „Wang/Qiang/Small“, anstatt sie umgekehrt in „Wang/Qiang/Small“ zu segmentieren.
Baidu hat immer seine Vorteile in der chinesischen Verarbeitung beworben. Aus der oben genannten Sicht gibt es nichts Besonderes am Wortsegmentierungsalgorithmus, und der Begriffsklärungseffekt ist nicht ideal, selbst wenn Baidu einen Algorithmus verwendet, der komplexer ist als die obige Wortsegmentierung Algorithmus, es ist schwer zu sagen, dass es ein Vorteil ist. Wenn wir sagen: Wenn Baidu einen Vorteil hat, ist sein einziger Vorteil sein großes Spezialwörterbuch. Dieses spezielle Wörterbuch enthält Namen von Personen (z. B. Dae Jang Geum). Es wird geschätzt, dass Baidu die von der Wissenschaft veröffentlichten Informationen übernimmt. Der relativ neue Erkennungsalgorithmus für benannte Entitäten identifiziert kontinuierlich Wörter, die nicht im Wörterbuch registriert sind aus dem Korpus und erweitert dieses Fachwörterbuch schrittweise. ——Dieser Artikel stammt von der ursprünglichen Postadresse des China SEO Forums: http://www.web520.com/bbs/thread-2742-1-1.html
Informationen zum Autor: Lao Chen, einer der Gründer des China SEO Forum (www.web520.com/bbs)