Повторная формулировка вопроса: существует тезаурус, содержащий около 400 000 часто используемых слов. Теперь, когда у вас есть статья, используйте этот тезаурус для анализа количества вхождений общих слов и отсортируйте эти слова от большего к меньшему по количеству вхождений.
Идеи по улучшению алгоритма:
1. Обычно статья содержит гораздо меньше 400 000 слов в базе данных;
2. После индексации базы данных можно использовать «метод дихотомии» для быстрого поиска слов;
3. Сузить диапазон запроса по словам. Если при запросе определенного символа диапазон уже равен 0, можно предсказать, что следующие слова определенно не будут существовать (например, при запросе леса соответствующего слова нет). , так что это может закончиться здесь).
Расширять