НЛП-язык
##МАВЕН
<dependencies>
<dependency>
<groupId>org.nlpcn</groupId>
<artifactId>nlp-lang</artifactId>
<version>1.7.6</version>
</dependency>
</dependencies>
Этот проект представляет собой базовый пакет. Он инкапсулирует наиболее часто используемые инструменты в проектах nlp.
инструмент
- √ Стандартизация слов
- √ древовидная структура шин
- √ Дерево из шин с двойным массивом
- √ Сегментация текста
- √ очистка html-тегов
- √ Добавлен алгоритм Витерби
компоненты
- √ Преобразование китайских иероглифов в пиньинь
- √ Преобразование между упрощенным и традиционным китайским языком
- √ блумфильтр
- √ Дедупликация отпечатков пальцев
- √ Расчет сходства статей по SimHash
- √ Статистика совпадения слов
- √ Поисковые запросы по памяти
- √ Статистика частоты слов WordWeight, статистика idf слов, статистика корреляции категорий слов