浅析搜索引擎原理：文件匹配与初始子集的筛选

作者：Eve Cole 更新时间：2011-03-21 16:26:40

文件匹配与初始子集的选择时搜索引擎在排名的过程中非常重要的两个方面，今天就这两个方面给大家做一些基础性的总结。虽然这些看似和我们没有关系，但是大家多了解一些基础性的原理，对以后网站的建设和优化都有一定的指导意义，当然，这些只是自己的一些总结，如果有不对的地方，还希望大家做指正。

当搜索引擎经过预处理的前几个阶段之后，搜索引擎得到的是以词为单位的关键词集合。在这个之前，搜索引擎首先得到的是一个文件对应多个关键词，但这样的查询效率太低也不现实，所以搜索引擎会把这些文件进行反向映射，得到的是一个关键词对应多个文件。这样在用户搜索某个关键词的时候，就在这个关键词对应的所有文件中进行计算和匹配，并返回给用户最佳的搜索结果。了解了这个大体的过程，下边就开始分享今天的两个主要方面。

首先是文件匹配：搜索引擎的蜘蛛是无时无刻的都在爬行和抓取，另外不断对抓取的数据进行整理归纳以及存储。这些过程并不是用户在搜索的时候进行的，而是在搜索之前以后预处理好的，真正当用户搜索某个关键词时，搜索引擎只是在自己的数据库中进行查找，而不是实时的对互联网上所有的网站进行查找。为了表达的更加清楚，我以一个简易的图来给大家说明：

这个图就是典型的倒排索引快速匹配文件表，当用户搜“关键词1 关键词16”，那么搜索引擎就会在这两个词对应的所有文件中进行简单的计算和匹配，找到既包含关键词1也包含关键词16的所有页面。

其次是初始子集筛选：子集就是为了更加快速的满足用户的需要，搜索引擎需要从所有的相关页面中进行选择，只计算权重稍高的页面返回给用户，这个过程就是常说的初始子集的筛选。大家可以试想，当我们搜索某个关键词时，往往包含这个关键词的页面数量是巨大的，甚至几十万、上百万。如果搜索引擎从这么大的数据中进行匹配的话时间显然更长，为了更好的满足用户的需求，实际中搜索引擎只会选择哪些权重高的页面去匹配，但是什么样的页面才是权重高，才符合搜索引擎的条件呢？这就包含了多方面的内容和页面相关元素的影响，既有外部因素，也会有内部因素。这个问题不是本文总结的一个重点，以后的文章会慢慢和大家分享。

平时我们搜索时不可能一一产看所有的搜索结果，一般情况下只会去查看前几页甚至只是前几名，虽然搜索引擎返回的相关结果有很多，但这些结果仍然是互联网上符合条件众多网页中的一小部分，所以，用户的搜索习惯在发生变化，搜索引擎也面临着很大的挑战，如何能更好的帮助用户搜索到需要的信息，永远是搜索引擎在努力的一件事。

到这里，通过文件匹配以及初始子集的筛选给大家分享了一些搜索引擎的基本原理，当然，在技术上往往要涉及的东西还有很多，考虑的各方面也更周全、更复杂，这些只是在大体的原理上给大家做了总结。通过了解搜索引擎的各个方面，对于我们网站的建设以及搜索引擎优化都能起到一定的指导作用。

好了，本文就到这里，以后会继续和大家总结分享。本文来自：北京SEO，网址：http://www.seostudy.org/，转载请保留版权，谢谢！

感谢北京SEO 的投稿