검색 엔진 원리에 대한 간략한 분석: 파일 일치 및 초기 하위 집합 선별

저자：Eve Cole 업데이트 시간：2011-03-21 16:26:40

파일 일치와 초기 하위 집합 선택은 검색 엔진의 순위 지정 프로세스에서 매우 중요한 두 가지 측면입니다. 오늘은 이 두 가지 측면에 대한 몇 가지 기본 요약을 제공하겠습니다. 비록 이것이 우리와 아무 관련이 없는 것처럼 보이지만, 모든 사람은 미래의 웹 사이트 구축 및 최적화에 대한 특정 지침이 될 몇 가지 기본 원칙에 대해 더 많이 배워야 합니다. 물론 이것은 내 자신의 요약 중 일부일 뿐입니다. , 정정해 주시기 바랍니다.

검색 엔진이 처음 몇 단계의 전처리 단계를 거친 후 검색 엔진이 얻는 것은 단어 단위의 키워드 집합입니다. 이전에는 검색 엔진이 먼저 여러 키워드에 해당하는 하나의 파일을 얻었지만 이러한 쿼리 효율성이 너무 낮고 비현실적이어서 검색 엔진이 이러한 파일을 역으로 매핑했으며 결과는 여러 키워드에 해당하는 하나의 키워드였습니다. 이와 같이 사용자가 특정 키워드를 검색하면 해당 키워드에 해당하는 모든 파일에 대해 계산 및 매칭이 수행되어 가장 좋은 검색 결과가 사용자에게 반환된다. 이 일반적인 과정을 이해한 후 오늘의 두 가지 주요 측면을 공유해 보겠습니다.

첫 번째는 파일 일치입니다. 검색 엔진 스파이더는 항상 크롤링하고 캡처하며 캡처된 데이터를 지속적으로 정렬, 요약 및 저장합니다. 이러한 과정은 사용자가 검색할 때 이루어지는 것이 아니라, 사용자가 특정 키워드를 검색하면 검색 엔진이 실시간으로 인터넷을 검색하는 것이 아니라 자체 데이터베이스에서만 검색을 하게 됩니다. 모든 웹사이트에서. 좀 더 명확하게 표현하기 위해 간단한 도표로 설명하겠습니다.

이 그림은 일반적인 역색인 빠른 매칭 파일 테이블입니다. 사용자가 "키워드 1 키워드 16"을 검색하면 검색 엔진은 이 두 단어에 해당하는 모든 파일에 대해 간단한 계산 및 매칭을 수행하고 키워드 1이 포함된 파일을 찾습니다. 키워드 16의 모든 페이지도 포함되어 있습니다.

두 번째는 초기 하위 집합 선별입니다. 하위 집합은 사용자의 요구를 보다 신속하게 충족하기 위한 것입니다. 검색 엔진은 모든 관련 페이지에서 선택해야 하며 약간 더 높은 가중치를 가진 페이지만 계산하여 사용자에게 반환합니다. 종종 초기 하위 집합이라고 합니다. 우리가 특정 키워드를 검색할 때 이 키워드가 포함된 페이지의 수가 종종 수십만 또는 수백만에 달할 정도로 엄청나다는 것을 상상할 수 있습니다. 검색 엔진이 그렇게 많은 양의 데이터를 매칭한다면 분명히 더 오랜 시간이 걸릴 것입니다. 실제로 검색 엔진은 사용자의 요구를 더 잘 충족시키기 위해 가중치가 높은 페이지만 선택하지만 어떤 종류의 페이지가 높은 가중치를 가지고 있는지 선택합니다. 무게?, 검색 엔진의 조건을 충족하려면? 여기에는 콘텐츠 및 페이지 관련 요소의 여러 측면(외부 및 내부 요인 모두)의 영향이 포함됩니다. 이 문제는 이 기사 요약의 초점이 아닙니다. 향후 기사에서 천천히 공유하겠습니다.

일반적으로 우리가 검색할 때 모든 검색 결과를 하나씩 보는 것은 불가능합니다. 일반적으로 검색 엔진에서 반환되는 관련 결과가 많이 있지만 이러한 결과는 처음 몇 페이지 또는 심지어 상위 몇 페이지만 봅니다. 이는 여전히 많은 웹페이지의 일부에 불과하므로 사용자의 검색 습관은 변화하고 있으며 검색 엔진 역시 사용자가 필요한 정보를 검색하도록 돕는 방법에 직면해 있습니다. 일을 하려고 합니다.

지금까지 파일 일치 및 초기 하위 집합 선별을 통해 검색 엔진의 몇 가지 기본 원칙을 공유했습니다. 물론 기술적으로 포함되어야 할 사항이 더 많고 고려해야 할 모든 측면이 더 포괄적이고 복잡합니다. 이것은 단지 모든 사람을 위한 일반적인 원칙을 요약한 것입니다. 검색 엔진의 모든 측면을 이해함으로써 당사 웹사이트 구축 및 검색 엔진 최적화에 특정 지침 역할을 할 수 있습니다.

귀하의 기여에 대해 베이징 SEO에 감사드립니다