-
검색 엔진은 매우 잘 발전했지만 여전히 다음과 같은 많은 기술적 과제에 직면해 있습니다.
1. 페이지 크롤링은 빠르고 포괄적이어야 합니다.
우리는 인터넷이 역동적인 콘텐츠 업데이트라는 것을 알고 있습니다. 매일 많은 사람들이 인터넷에 새로운 콘텐츠를 게시하거나 오래된 콘텐츠를 업데이트합니다. 검색 엔진은 이 엄청난 양의 정보로부터 사용자의 검색 의도에 가장 적합한 웹 페이지를 크롤링합니다. 이미 존재하는 엄청난 양의 정보와 매초 기하학적으로 증가하는 정보의 양으로 인해 검색 엔진의 작업량은 매우 크며, 특히 막 탄생한 경우에는 검색 엔진 프로그램을 업데이트하는 데 많은 시간이 걸립니다. .주기는 때때로 몇 달에 한 번씩 업데이트될 수 있습니다. 몇 달 안에 얼마나 많은 웹 페이지 업데이트와 새로운 업데이트가 생성될지 상상해 보십시오. 이러한 검색 결과는 지연되는 경향이 있습니다. 최상의 검색 결과를 반환하기 위해 검색 스파이더는 가능한 한 포괄적인 웹 페이지를 크롤링해야 하며, 이를 위해서는 검색 엔진이 많은 기술적 문제를 해결해야 합니다. 이는 또한 직면한 주요 과제이기도 합니다.
2. 데이터의 대용량 저장
인터넷상의 정보는 상상할 수 없을 정도로 방대하며 매일 새로운 정보가 많이 생성됩니다. 검색 엔진이 이러한 페이지를 크롤링한 후에는 특정 데이터 형식으로 저장되어야 하며 데이터 구조에는 합리적인 수준이 필요합니다. 확장성이 매우 높습니다. 데이터 쓰기 속도가 빨라야 하고, 액세스 속도도 충분히 빨라야 합니다. 검색 엔진은 페이지 자체에 많은 양의 정보를 저장하는 것 외에도 더 나은 색인 및 정렬을 위해 페이지 간의 링크 관계, 페이지의 기록 데이터 및 많은 색인 정보도 저장해야 합니다. 이러한 데이터의 양은 매우 엄청납니다. 이러한 대규모 데이터를 저장하고 읽는 데에는 확실히 많은 기술적 어려움이 있습니다.
3. 인덱스 처리는 빠르고 효과적이어야 하며 확장 가능해야 합니다.
검색 엔진이 페이지 데이터를 크롤링하고 저장한 후에는 많은 페이지를 색인화해야 합니다. 예를 들어 페이지 간의 링크 관계 계산, 정방향 인덱스, 역방향 인덱스 등 예를 들어, 구글의 PR 계산 등이 있습니다. 검색 엔진은 검색 결과를 빠르게 반환하기 위해 많은 인덱싱 작업을 수행해야 하며, 또한 인덱싱 과정에서 수많은 새로운 페이지가 생성되며, 검색 엔진의 인덱스 처리 프로그램이 필요합니다. 비교할만한 좋은 확장성.
4. 쿼리 처리가 빠르고 정확합니다.
이전 단계는 모두 검색엔진의 백그라운드 프로그램에서 실행되며, 쿼리 단계는 사용자가 결과를 볼 수 있는 단계이다. 검색 엔진의 검색창에 키워드를 입력하고 검색을 클릭하면 검색 엔진이 1초 이내에 결과를 반환하는 경우가 많습니다. 표면적으로는 간단해 보이지만 실제로는 매우 복잡합니다. 프로세스. 많은 알고리즘이 관련되어 있습니다. 기본 조건을 충족하는 웹페이지에서 합리적인 페이지를 1초도 안 되는 시간에 빠르게 찾아 검색엔진의 상위에 올려야 합니다. Baidu는 최대 76페이지의 결과를 볼 수 있고 Google은 그보다 조금 더 많은 결과를 최대 100페이지까지 볼 수 있다는 것을 알고 있습니다.
기사 출처: http://www.suptb.cn/ 재인쇄 시 출처를 명시해 주시기 바랍니다. 감사합니다.
기여해주신 danieldu2008에게 감사드립니다.