질문 재진술: 일반적으로 사용되는 약 400,000개의 단어가 포함된 동의어 사전이 있습니다. 이제 기사가 주어지면 이 동의어 사전을 사용하여 일반적인 단어의 발생 횟수를 분석하고 발생 횟수에 따라 이러한 단어를 높은 순으로 정렬합니다.
알고리즘 개선을 위한 아이디어:
1. 일반적으로 기사 하나에는 데이터베이스에 있는 400,000 단어보다 훨씬 적은 양이 포함되어 있습니다.
2. 데이터베이스를 색인화한 후 "이분법"을 사용하여 단어를 빠르게 찾을 수 있습니다.
3. 쿼리 범위를 단어 단위로 좁힙니다. 특정 문자를 쿼리할 때 범위가 이미 0인 경우 다음 단어는 확실히 존재하지 않을 것이라고 예측할 수 있습니다. (예를 들어 숲을 쿼리할 경우 일치하는 단어가 없습니다.) , 여기서 끝날 수 있습니다.
확장하다