中国語の単語分割とは何ですか
単語の分割とは何ですか? 中国語の単語の分割と他の単語の分割の違いは何ですか? 単語の分割は、連続する単語シーケンスを特定の仕様に従って単語シーケンスに再結合するプロセスです。上記の例から、英語の文章ではスペースが単語間の自然な区切り文字として使用されていることがわかりますが、中国語では、単語、文、段落のみが明確な区切り文字で区切られていますが、正式な区切り文字はありません。英語にも、単語レベルでフレーズを分割するという問題があります。上記の例からわかるように、中国語は英語よりもはるかに複雑で困難です。
現在、主流の中国語単語分割アルゴリズムは 3 つあります。
1. 文字列一致による単語分割手法
この方法は、機械的単語分割法とも呼ばれます。これは、分析対象の中国語文字列を、「十分に大きな」機械辞書のエントリと照合します。辞書内に特定の文字列が見つかった場合に、その文字列が一致します。成功しました(単語を認識しました)。異なるスキャン方向に従って、文字列マッチング単語分割方法は、異なる長さの優先マッチングに従って、最大(最長)マッチングと最小(最短)マッチングに分けることができます。品詞タグ付け処理に関連するかどうか 組み合わせて、単純な単語分割方式と、単語分割とアノテーションを組み合わせた統合方式に分けることができます。一般的に使用されるいくつかの機械的な単語分割方法は次のとおりです。
1) 前方最大マッチング法 (左から右の方向)。
2)逆最大マッチング法(右から左の方向)。
3) 最小限のセグメンテーション (各文の単語数を最小限に抑える)。
上述の様々な方法は、互いに組み合わせることができ、例えば、順方向最大マッチング方法と逆方向最大マッチング方法を組み合わせて双方向マッチング方法を形成することもできる。中国語の 1 文字の単語構成の特性により、前方最小マッチングと逆最小マッチングは一般にほとんど使用されません。一般に、逆方向マッチングのセグメンテーション精度は前方マッチングよりもわずかに高く、曖昧さは少なくなります。統計結果によると、単純に前方最大マッチングを使用した場合のエラー率は 1/169、単純に逆方向最大マッチングを使用した場合のエラー率は 1/245 です。ただし、この精度は実際のニーズを満たすには程遠いです。実際に使用されている単語分割システムは、いずれも予備的な分割方法として機械的な単語分割を使用しており、その他のさまざまな言語情報を利用してさらに分割精度を向上させる必要がある。
1 つの方法は、特徴スキャンまたはマーク セグメンテーションと呼ばれるスキャン方法を改善することです。これは、分析対象の文字列内で明らかな特徴を持ついくつかの単語を優先的に識別してセグメント化し、これらの単語をブレークポイントとして使用して、元の文字列を機械的な単語に分割します。セグメント化は、一致エラー率を減らすために、より小さい文字列に対して実行されます。もう 1 つの方法は、単語分割と品詞タグ付けを組み合わせ、豊富な品詞情報を使用して単語分割の決定を支援し、タグ付けプロセス中に単語分割結果をチェックして調整することで、タグ付けの精度を大幅に向上させることです。セグメンテーション。
2. 理解に基づく単語分割法
この単語分割方法は、コンピューターが人間による文章の理解をシミュレートできるようにすることで、単語認識の効果を実現します。基本的な考え方は、単語を分割しながら構文解析と意味解析を実行し、構文情報と意味情報を使用して曖昧さに対処することです。通常、単語分割サブシステム、構文および意味サブシステム、全体制御部分の 3 つの部分で構成されます。全体的な制御部分の調整の下で、単語分割サブシステムは、単語、文などに関する構文的および意味論的な情報を取得して、単語分割の曖昧さを判断することができます。つまり、人間による文章の理解のプロセスをシミュレートします。この単語分割方法では、大量の言語知識と情報を使用する必要があります。中国語知識の汎用性と複雑さにより、さまざまな言語情報を機械が直接読み取れる形式に整理することは困難であるため、理解に基づく単語分割システムはまだ実験段階にあります。
3. 統計に基づく単語分割法
形式的な観点から見ると、単語は安定した単語の組み合わせであるため、文脈上、隣接する単語が同時に出現する回数が多いほど、それらが単語を形成する可能性が高くなります。したがって、単語間で共起する隣接単語の頻度または確率は、単語の信頼性をよりよく反映することができます。コーパス内で共起する隣接する単語の組み合わせの頻度をカウントし、相互出現情報を計算することができます。 2つの文字の相互出現情報を定義し、2つの漢字XとYの隣接共起確率を計算します。相互出現情報は、漢字間の組み合わせ関係の近さを反映する。近さがある閾値よりも高い場合には、この単語群が単語を構成している可能性があると考えられる。この方法は、コーパス内の単語群の頻度をカウントするだけでよく、辞書を分割する必要がないため、辞書不要単語分割法や統計的単語抽出法とも呼ばれます。ただし、この方法には一定の制限もあります。多くの場合、「this」、「one」、「some」、「my」、「Many」など、頻繁に共起するが単語ではない一般的に使用される単語グループが抽出されます。などがあり、一般的な単語の認識精度は低く、時間と空間のオーバーヘッドが大きくなります。実際の統計的単語分割システムでは、文字列のマッチングと単語の分割に基本的な単語分割辞書 (一般的な単語辞書) を使用し、同時にいくつかの新しい単語を識別するために統計的手法を使用する必要があります。つまり、文字列の頻度統計と文字列の一致を組み合わせます。単語の分割に一致する役割を果たすだけでなく、統計的手法を使用していくつかの新しい単語を識別します。また、辞書不要の単語の分割と文脈認識を利用して新しい単語を識別します。曖昧さを自動的に排除します。
分詞について注意すべき点がいくつかあります。
1. 単語分割アルゴリズムの時間パフォーマンスは比較的高いです。特に今日の Web 検索には高いリアルタイム性が求められます。したがって、中国語の情報処理の基礎である単語の分割には、まずできるだけ時間を費やさなければなりません。
2. 単語分割精度の向上は、必ずしも検索性能の向上につながるわけではありません。単語の分割が一定の精度に達すると、中国語の情報検索への影響は明らかではなくなりますが、依然として多少の影響はありますが、これは CIR のパフォーマンスのボトルネックではなくなります。したがって、やみくもに高精度を追求する一方的な単語分割アルゴリズムは、大規模な中国語情報検索にはあまり適していません。時間と精度の間に矛盾がある場合、この 2 つの間の適切なバランスを見つける必要があります。
3. セグメンテーションの粒度はロングワード優先原則に従うことができますが、関連する後続の処理はクエリ拡張レベルで実行する必要があります。情報検索では、単語分割アルゴリズムは相互曖昧性を排除する方法にのみ焦点を当てる必要があります。カバレッジの曖昧さについては、辞書のセカンダリ インデックス作成とクエリ拡張を使用して解決できます。
4. 未登録単語の認識精度は再現率よりも重要です。未登録語を特定する際には、誤った未登録語を分割しないように、誤った組み合わせが行われないように努める必要がある。単一の単語を誤って未登録の単語に結合すると、該当する文書が正しく検索されない場合があります。
百度分詞
まず、区切り文字に基づいてクエリを区切ります。分詞 <情報検索、理論、ツール> の後の「情報検索理論ツール」。
次に、重複する文字列があるかどうかを確認し、重複している場合は、余分な文字列を破棄し、1 つだけを残します。 「理論的ツール理論」という単語が <ツール理論> に分割された後、GOOGLE ではこの合併計算は考慮されていません。
次に、英単語または数字があるかどうかを確認し、英単語または数字が含まれている場合は、その前後の漢字を切り取ります。単語分割 <movie, BT, download> の後に「movie BT download」をクエリします。
文字列に含まれる漢字が 3 文字以下の場合は、変更しないでください。文字列の長さが 4 文字を超えると、Baidu の単語分割プログラムが動作して文字列が分割されます。
単語分割アルゴリズムの種類: 順方向最大一致、逆方向最大一致、双方向最大一致、言語モデル法、最短パス アルゴリズム 単語分割システムが優れているかどうかを判断するには、2 つの重要なポイントがあります。もう 1 つは、辞書に登録されていない単語の識別です。たとえば、人名、地名、組織名などです。
Baidu の単語分割では、少なくとも 2 つの辞書を使用します。1 つは一般辞書、もう 1 つは特殊辞書 (人名、地名、新語など) です。さらに、最初に特殊辞書で切り出し、その後、残りの断片を通常の辞書で分割します。
Baidu の単語分割アルゴリズム タイプでは、双方向最大一致アルゴリズムが使用されます。
例: クエリ「毛沢東北京華燕雲」、Baidu の単語分割結果: 「毛沢東/北京/北京華燕雲」
百度の単語分割では人名も識別できるほか、「北京延雲」も識別でき、辞書に登録されていない単語を識別する機能があることがわかる。
まず、特殊な辞書 (人名、地名など) を照会し、固有名詞を切り出し、残りの部分に対して双方向の単語分割戦略 (前方最大一致、逆最大一致) を採用します。 ) 分割結果が同じであることは、曖昧さがないことを意味し、単語分割結果を直接出力します。
矛盾する場合は、最短経路の結果が出力されます。つまり、フラグメントが少ないほど良いです。たとえば、<Cuba, Bi, Ethics> と <Old Babylon, Li> を比較すると、後者の <Beijing> を選択します。 、華、燕雲><北京燕雲>と比較して、後者を選択してください。
長さが同じ場合は、単一の単語が少ない分割結果のグループを選択します。 「遠い古代バビロン」、このクエリは百度によって「遠い/古代/古代バビロン」に分割されるのではなく、<遠い、古代、バビロン>に分割されました。
単語も同じ場合は、前方単語分割結果を選択します。 「Wang Qiang Xiao:」をクエリすると、Baidu は逆に「Wang/Qiang/Small」に分割するのではなく、「Wang/Qiang/Small」に分割します。
Baidu は常に中国語処理における利点を宣伝してきました。上記の観点から、単語分割アルゴリズムには何も特別なことはなく、Baidu が上記の単語分割アルゴリズムよりも複雑なアルゴリズムを採用したとしても、曖昧さ解消効果は理想的ではありません。百度に利点があるかと言えば、その唯一の利点は、この特殊な辞書に人物名 (大長今など) や称号 (など) が含まれていることです。百度は学術界から発表された情報を採用していると推定されており、比較的新しい固有表現認識アルゴリズムにより、辞書に登録されていない単語も継続的に識別されます。コーパスから抽出し、この専門辞書を徐々に拡張していきます。 ——この記事は、中国 SEO フォーラムの元の投稿アドレスからのものです: http://www.web520.com/bbs/thread-2742-1-1.html
著者情報: Lao Chen、中国 SEO フォーラム (www.web520.com/bbs) 創設者の 1 人