네트워크 과학과 기술의 급속한 발전으로 사람들은 네트워크 검색 엔진에 점점 더 의존하고 있으며, 특히 네트워크 자원이 풍부하고 네트워크 정보에 대한 수요가 증가하는 21세기에 검색 기술은 매우 중요한 부분을 차지하고 있습니다. 인터넷. 요즘 사람들은 멀티미디어 자료, 최신 정보, 지도 등 다양한 정보를 검색하기 위해 검색 엔진을 자주 사용합니다.
첫째, 검색엔진의 기본원리
검색 엔진은 웹 사이트의 웹 페이지 정보를 얻고 데이터베이스를 구축하며 쿼리를 제공할 수 있는 시스템입니다.
1.1 검색엔진의 구조
웹페이지 수집은 웹스파이더를 통해 웹페이지를 크롤링하고, 각 웹페이지에 포함된 링크를 따라 다른 웹페이지를 크롤링하는 것이며, 결국 많은 웹페이지를 크롤링할 수 있으며, 이러한 웹페이지를 압축하여 지식베이스에 저장할 수 있습니다. 웹 스파이더 프로그램은 정보의 적시성과 효율성을 보장하기 위해 전체 웹을 지속적으로 크롤링합니다.
전처리는 수집된 웹페이지에 대한 링크 분석을 수행하고 웹페이지 중요도를 계산하고 키워드를 추출하며 색인 데이터베이스를 구축하는 것입니다. 이 데이터베이스의 아키텍처는 검색에 도움이 되어야 하며 포함된 정보는 최대한 포괄적이어야 합니다.
서비스란 사용자가 키워드를 입력하면 해당 키워드에 따라 해당 정보가 인덱스 데이터베이스에서 빠르게 검색되어 사용자에게 반환되는 것을 의미합니다.
1.2 검색엔진 분류
검색 엔진은 전체 텍스트 검색 엔진, 디렉토리 검색 엔진, 메타 검색 엔진의 세 가지 범주로 나눌 수 있습니다.
전체 텍스트 검색 엔진은 웹 스파이더를 사용하여 다양한 웹 페이지를 크롤링하고 해당 정보를 추출하여 데이터베이스에 저장합니다. 사용자가 이를 사용하면 사용자가 입력한 키워드와 일치하여 정보를 사용자에게 반환합니다. 이는 가장 일반적으로 사용되는 검색 엔진이며 Google과 Baidu가 이 범주에 속합니다.
디렉토리 검색 엔진은 검색된 리소스를 특정 방식으로 분류하여 결국 대규모 디렉토리 시스템을 구축합니다. 사용자가 쿼리하면 디렉토리를 계층별로 열고 탐색할 수 있으며, 엄밀히 말하면 디렉토리 검색 엔진은 원하는 정보를 찾을 수 있습니다. 실제 검색 엔진이 아닙니다. 우리가 사용하는 Yahoo와 Sina가 이 범주에 속합니다.
메타 검색 엔진은 다른 검색 엔진을 호출하는 엔진으로, 더 많은 리소스를 포괄하고 더 포괄적인 서비스를 제공할 수 있습니다. 가장 일반적으로 사용되는 것은 Dogpile, Vivisimo 및 국내 스타 검색입니다.
위의 세 가지 검색 엔진은 서로 다른 상황에서 사용될 수 있으며 고유한 장점과 단점이 있습니다. 전체 텍스트 검색 엔진은 일반적으로 포괄적인 검색에 사용됩니다. 장점은 많은 양의 정보, 시기적절한 업데이트, 수동 개입이 필요 없다는 것입니다. 단점은 많은 양의 정보를 처리하고 정보를 필터링하기 어렵다는 것입니다. 디렉토리 검색 엔진은 대부분 웹 사이트를 지향하며 디렉토리 검색 서비스와 직접 검색 서비스를 제공합니다. 장점은 수동 개입이 정보 검색의 정확성을 높이는 데 도움이 된다는 점이지만 단점은 수동 개입이 필요하고 유지 관리 비용이 많이 들고 속도가 느리다는 것입니다. 업데이트 및 소량의 정보. 메타 검색 엔진은 여러 다른 검색 엔진에 쿼리할 수 있기 때문에 특히 높은 재현율이 필요한 상황에 적합합니다. 그러나 현재 인덱스 데이터베이스를 구축하고 쿼리 검색을 수행하는 구체적인 방법이나 규칙은 검색 엔진마다 크게 다릅니다. 메타 검색 도구의 검색 효과.
둘째, 검색엔진 구현을 위한 몇 가지 핵심 기술
2.1 거미
웹 스파이더는 다음과 같은 방법으로 구현할 수 있습니다.
(1) 너비 우선 기준. 너비 우선 기반 알고리즘은 만난 순서대로 링크에 액세스합니다. 모든 웹 스파이더 중 가장 간단한 전략입니다.
(2) 깊이를 먼저 기준으로 합니다. 깊이 우선순위 개념을 바탕으로, 선택된 조건에 따라 웹페이지와 검색 주제 간의 유사도를 계산하고, 유사도가 가장 높은 링크를 선택하여 검색을 하게 되는데, 유사도 계산 과정에서는 일반적으로 코사인이 사용됩니다. 계산에 사용됩니다.
(3) 페이지 등급을 기준으로 합니다. 웹페이지 순위를 기준으로 웹페이지 평점과 콘텐츠를 조합하여 검색된 문서집을 평가하고, 계산된 결과를 바탕으로 평점이 가장 높은 링크를 다음 검색 대상으로 선택합니다.
(4) 인포스파이더. InfoSpider는 진화된 키워드 테이블과 신경망 방법을 사용하여 주제와 관련된 웹 페이지의 유사성을 계산하고, 계산 결과를 바탕으로 다음 검색 개체를 결정합니다. 문서를 얻는 데 소비된 비용은 에이전트의 에너지를 수정하는지 여부를 결정합니다. 에너지 수준에 따라 에이전트를 실행 취소, 재생 또는 생존합니다.
2.2 웹페이지의 중요성 판단
웹페이지의 중요성을 판단하는 방법에는 크게 두 가지가 있는데, 하나는 링크를 기반으로 하는 것입니다.
방법이고, 다른 하나는 유사성을 기반으로 합니다.
링크 방법에 따른 계산을 바탕으로 링크 정보와 링크된 개체 사이에 신뢰할 수 있는 매핑 관계가 있어야 합니다. 적용 중에 다음이 자주 사용됩니다.
(1) In-degree: 이 웹페이지를 가리키는 링크 대상이 포함된 웹페이지의 수입니다.
(2) 외부도: 본 웹페이지에서 링크된 웹페이지 링크의 수;
(3) 페이지 순위: 사용자가 언제든지 웹 페이지를 방문할 가능성을 말합니다.
이 방법은 널리 사용되며 매우 효과적입니다.
유사도 기반 계산의 경우 일반적으로 벡터 공간 모델을 사용하여 쿼리 문자열과 텍스트를 벡터로 변환한 후 텍스트와 쿼리 문자열 간의 유사성을 평가합니다.
2.3 검색엔진 하드웨어 시스템 구축
검색 엔진의 하드웨어 시스템은 전체 시스템의 중추이며, 더 빠른 쿼리 속도를 제공하기 위해 하드웨어 시스템은 일반적으로 Google의 서버가 전 세계에 분산되어 있으며 병렬 기술을 사용하여 속도를 높입니다. 실행 속도. 또한 인덱스 데이터베이스의 하드웨어 설계도 매우 중요하며 데이터 액세스 속도를 향상시키는 데 매우 중요합니다.
셋째, 검색엔진 역개발 동향
미래의 검색 엔진은 다음과 같은 특징을 갖게 될 것입니다.
(1) 인터넷상의 거의 모든 정보를 수집할 수 있습니다.
(2) 일부 불법정보는 차단될 수 있습니다.
(3) 재현율 및 정밀도 향상
(4) 텍스트 검색어를 인식할 수 있을 뿐만 아니라 이미지, 오디오, 비디오 등도 인식할 수 있습니다.
(5) 정보 업데이트 속도가 빨라집니다.
(6) 데이터베이스 간 쿼리에 대한 편리한 소개;
(7) 대화형 인터페이스는 인간화되고 개인화됩니다.
(8) 지능형 검색을 실현할 수 있습니다.
(9) 모바일 검색은 큰 발전을 이룰 것이다.
넷째, 요약
이 기사에서는 검색 엔진에 대해 자세히 설명하고 핵심 기술의 구현을 분석하며 향후 개발 동향을 제안합니다. 기술의 발전과 사람들의 요구 사항이 향상됨에 따라 검색 엔진은 점점 더 지능화되고 더욱 효율적이 될 것입니다. 그리고 실용적입니다.