Что такое сегментация китайских слов
Что такое сегментация слов? В чем разница между сегментацией китайских слов и другими сегментациями слов? Сегментация слов — это процесс рекомбинации непрерывных последовательностей слов в последовательности слов в соответствии с определенными спецификациями. Из приведенного выше примера мы видим, что в английском письме в качестве естественных разделителей между словами используются пробелы, тогда как в китайском языке только слова, предложения и абзацы могут быть просто разделены очевидными разделителями. Хотя формальных разделителей нет. В английском языке тоже есть проблема с разделением фраз, на уровне слов, как мы видим из приведенного выше примера, китайский язык гораздо сложнее и труднее английского.
В настоящее время существует три основных алгоритма сегментации китайских слов:
1. Метод сегментации слов, основанный на сопоставлении строк.
Этот метод также называется методом механической сегментации слов. Он сопоставляет анализируемую строку китайских символов с записями в «достаточно большом» машинном словаре в соответствии с определенной стратегией. Если в словаре найдена определенная строка, это означает, что она соответствует. успешно (Узнать слово). В соответствии с различными направлениями сканирования метод сегментации слов сопоставления строк можно разделить на прямое сопоставление и обратное сопоставление в соответствии с приоритетом сопоставления различной длины, его можно разделить на максимальное (самое длинное) сопоставление и минимальное (самое короткое) сопоставление; связано ли это с процессом маркировки части речи. В комбинированном виде его можно разделить на простой метод сегментации слов и интегрированный метод, который сочетает в себе сегментацию слов и аннотацию. Ниже приведены несколько часто используемых методов механической сегментации слов:
1) Метод прямого максимального сопоставления (направление слева направо);
2) метод обратного максимума (направление справа налево);
3) Минимальная сегментация (минимизировать количество слов в каждом предложении).
Различные способы, упомянутые выше, также могут быть объединены друг с другом. Например, метод прямого сопоставления по максимуму и метод обратного сопоставления по максимуму могут быть объединены для формирования способа двустороннего сопоставления. Из-за особенностей формирования односимвольных слов в китайском языке прямое минимальное соответствие и обратное минимальное соответствие обычно используются редко. Вообще говоря, точность сегментации обратного сопоставления немного выше, чем точность сегментации прямого сопоставления, и возникает меньше неоднозначностей. Статистические результаты показывают, что частота ошибок при простом использовании прямого максимального сопоставления составляет 1/169, а частота ошибок при простом использовании обратного максимального сопоставления составляет 1/245. Однако эта точность далека от удовлетворения реальных потребностей. Все фактически используемые системы сегментации слов используют механическую сегментацию слов в качестве предварительного метода сегментации, и необходимо дальнейшее повышение точности сегментации за счет использования различной другой лингвистической информации.
Один из способов — усовершенствовать метод сканирования, который называется сканированием признаков или сегментацией меток. Он отдает приоритет выявлению и сегментированию некоторых слов с очевидными характеристиками в анализируемой строке. Используя эти слова в качестве точек останова, исходную строку можно разделить на механические слова. сегментация выполняется для меньших строк, чтобы уменьшить частоту ошибок сопоставления. Другой метод состоит в том, чтобы объединить сегментацию слов и маркировку частей речи, использовать обширную информацию о частях речи для принятия решений о сегментации слов и, в свою очередь, проверять и корректировать результаты сегментации слов в процессе маркировки, тем самым значительно повышая точность сегментация.
2. Метод сегментации слов, основанный на понимании
Этот метод сегментации слов обеспечивает эффект распознавания слов, позволяя компьютеру имитировать человеческое понимание предложений. Основная идея состоит в том, чтобы выполнить синтаксический и семантический анализ при сегментировании слов и использовать синтаксическую и семантическую информацию для устранения двусмысленности. Обычно он состоит из трех частей: подсистемы сегментации слов, подсистемы синтаксиса и семантики и общей части управления. Подсистема сегментации слов под координацией общей управляющей части может получать синтаксическую и семантическую информацию о словах, предложениях и т.п. для суждения о неоднозначности сегментации слов, то есть моделирует процесс понимания предложений человеком. Этот метод сегментации слов требует использования большого количества языковых знаний и информации. Из-за общности и сложности знаний китайского языка сложно организовать различную языковую информацию в форму, которую можно было бы непосредственно прочитать машинами. Поэтому система сегментации слов, основанная на понимании, все еще находится на экспериментальной стадии.
3. Метод сегментации слов на основе статистики.
С формальной точки зрения слова представляют собой устойчивые комбинации слов, поэтому в контексте, чем больше раз соседние слова появляются одновременно, тем больше вероятность, что они образуют слово. Следовательно, частота или вероятность совместного появления соседних слов между словами может лучше отражать достоверность слова. Можно подсчитать частоту комбинаций соседних слов, которые одновременно встречаются в корпусе, и вычислить информацию об их взаимном появлении. Определите информацию о взаимном появлении двух символов и вычислите вероятность совместного появления двух китайских символов X и Y рядом. Информация о взаимном вхождении отражает близость комбинационных отношений между китайскими иероглифами. Когда близость превышает определенный порог, можно считать, что эта группа слов может образовывать слово. Этот метод требует только подсчета частоты групп слов в корпусе и не требует сегментирования словаря, поэтому его также называют методом сегментации слов без словаря или методом статистического извлечения слов. Однако этот метод также имеет определенные ограничения. Он часто извлекает некоторые часто используемые группы слов, которые часто встречаются вместе, но не являются словами, такие как «это», «один», «некоторые», «мой», «много», и т. д., точность распознавания общих слов низкая, а затраты времени и пространства велики. Практические системы статистической сегментации слов должны использовать базовый словарь сегментации слов (словарь общих слов) для сопоставления строк и сегментации слов и в то же время использовать статистические методы для идентификации некоторых новых слов, то есть объединять статистику частоты строк с сопоставлением строк, что Он не только играет роль сегментации сопоставления слов, но также использует статистические методы для идентификации некоторых новых слов. Он также обладает характеристиками быстрой сегментации и высокой эффективности. Он также использует преимущества сегментации слов без словаря и распознавания контекста для идентификации новых слов и. автоматически устранять двусмысленности.
Несколько замечаний по поводу причастий:
1. Быстродействие алгоритма сегментации слов относительно велико. Особенно сегодняшний веб-поиск предъявляет высокие требования к работе в режиме реального времени. Поэтому сегментация слов, которая является основой китайской обработки информации, сначала должна занимать как можно меньше времени.
2. Повышение точности сегментации слов не обязательно приводит к улучшению производительности поиска. После того, как сегментация слов достигнет определенной точности, влияние на поиск информации на китайском языке перестанет быть очевидным. Хотя некоторое влияние все еще существует, это больше не является узким местом CIR. Таким образом, алгоритм односторонней сегментации слов, который слепо гонится за высокой точностью, не очень подходит для крупномасштабного поиска китайской информации. Когда возникает конфликт между временем и точностью, нам необходимо найти подходящий баланс между ними.
3. Детализация сегментации по-прежнему может соответствовать принципу приоритета длинных слов, но соответствующая последующая обработка должна выполняться на уровне расширения запроса. При поиске информации алгоритмы сегментации слов должны сосредоточиться только на том, как устранить перекрестную неоднозначность. В случае неоднозначности покрытия мы можем использовать вторичное индексирование словаря и расширение запроса для ее устранения.
4. Точность распознавания незарегистрированных слов важнее скорости запоминания. Необходимо постараться, чтобы при выявлении незарегистрированных слов не возникало неправильных комбинаций, чтобы избежать сегментации неправильных незарегистрированных слов. Если отдельные слова неправильно объединены в незарегистрированные слова, соответствующий документ может быть неправильно получен.
Причастие Байду
Сначала разделите запрос на основе разделителя. «Теоретические инструменты информационного поиска» после причастия <информационный поиск, теория, инструменты>.
Затем посмотрите, есть ли повторяющиеся строки. Если да, отбросьте лишние и оставьте только одну. После того, как слово «теоретическая теория инструментов» разделено на <теория инструментов>, GOOGLE не учитывает этот расчет слияния.
Затем определите, есть ли английские слова или цифры. Если да, сохраните английские слова или цифры целиком и обрежьте китайские иероглифы до и после. Запрос «загрузка фильма BT» после сегментации слов <фильм, BT, загрузка>.
Если строка содержит не более 3 китайских символов, оставьте ее без изменений. Когда длина строки превышает 4 китайских символа, программа сегментации слов Baidu приступит к работе и разобьет строку.
Типы алгоритмов сегментации слов: прямое максимальное совпадение, обратное максимальное совпадение, двустороннее максимальное совпадение, метод языковой модели, алгоритм кратчайшего пути. Чтобы судить, хороша ли система сегментации слов, есть два ключевых момента. устранить двусмысленность; другое — выявление слов, не зарегистрированных в словаре, например, названий людей, мест, организаций и т. д.
Для сегментации слов Baidu используется как минимум два словаря: один — общий словарь, а другой — специальный словарь (имена людей, географические названия, новые слова и т. д.). Причем сначала его разрезает специальный словарь, а затем остальные фрагменты разделяет обычный словарь.
Тип алгоритма сегментации слов Baidu использует двусторонний алгоритм максимального соответствия.
Пример: запрос «Мао Цзэдун Пекин Хуа Яньюнь», результаты сегментации слов Baidu: «Мао Цзэдун/Пекин/Пекин Хуа Яньюнь».
Сегментация слов Baidu может идентифицировать имена людей, а также идентифицировать «Пекин Яньюнь», что показывает, что у него есть функция идентификации слов, которые не зарегистрированы в словаре.
Сначала запросите специальный словарь (имена людей, некоторые географические названия и т. д.), вырежьте имена собственные и примените стратегию двусторонней сегментации слов для оставшихся частей (прямое максимальное совпадение, обратное максимальное совпадение). ) результаты сегментации одинаковы, это означает, что нет двусмысленности, напрямую выводите результаты сегментации слов.
Если они несовместимы, выводится результат кратчайшего пути, то есть чем меньше фрагментов, тем лучше. Например, по сравнению с <Куба, Би, Этика> и <Старый Вавилон, Ли> выбирайте последнее, <Пекин. , Хуа, Яньюнь> По сравнению с <Пекин Яньюнь>, выбирайте последний.
Если длины одинаковы, выберите группу результатов сегментации с меньшим количеством отдельных слов. «Далекий древний Вавилон», этот запрос был сегментирован Baidu на <далекий, древний, Вавилон> вместо сегментации на «далекий/древний/древний Вавилон».
Если слова одинаковы, выберите результат сегментации прямого слова. Запрос «Ван Цян Сяо:» Baidu сегментирует его на «Ван/Цян/Маленький» вместо обратного сегментирования на «Ван/Цян/Маленький».
Baidu всегда пропагандировала свои преимущества в китайской обработке. С вышеизложенной точки зрения в алгоритме сегментации слов нет ничего особенного, и эффект устранения неоднозначности не идеален, даже если Baidu примет более сложный алгоритм, чем описанный выше алгоритм сегментации слов. Если мы скажем, что у Baidu есть преимущество, то его единственным преимуществом является большой специальный словарь. Этот специальный словарь содержит имена людей (например, Дэ Чан Гым), титулы (например, Дэ Чан Гым). старушка) и некоторые географические названия (например, Объединенные Арабские Эмираты и т. д.). Предполагается, что Baidu использует информацию, опубликованную научными кругами. Относительно новый алгоритм распознавания именованных объектов постоянно идентифицирует слова, которые не зарегистрированы в словаре. из корпуса и постепенно расширяет этот специализированный словарь. ——Эта статья взята с исходного почтового адреса Китайского SEO-форума: http://www.web520.com/bbs/thread-2742-1-1.html.
Информация об авторе: Лао Чен, один из основателей China SEO Forum (www.web520.com/bbs)