这是一个简单的搜索引擎优化指南,我们都知道,搜索引擎在使用时非常快捷便利,但背后的工作过程却非常复杂,下面就来简单介绍一下搜索引擎具体是怎么工作的。
搜索引擎的工作过程可以分作三阶段:爬行抓取,预处理和排名。
一,爬行与抓取
搜索引擎的爬行主要是依赖蜘蛛(spider)进行,搜索引擎蜘蛛是一种用来爬行和访问页面的程序,它发送页面请求访问,服务器返回HTML代码,蜘蛛会把这个代码存入原始数据库。
为了抓取越来越多的页面,搜索引擎蜘蛛会随着页面链接从一个页面到另一个页面,就像蜘蛛在网上爬行一样,这也是它名称的由来。
相互链接的网站和页面组成了整个互联网,因此,蜘蛛从任何一个页面出发,理论上可以爬到任何网站(除了那些没有建立链接的网站)。蜘蛛的爬行策略有两种,一种是深度优先,从一个页面爬到下一个页面,直到没有页面可以爬了再回到第一个继续沿其他链接爬。第二种是广度优先,先把页面所有的第一层链接爬一遍,再到下一个页面去。
无论是哪种策略,只要时间足够,蜘蛛都可以爬完整个互联网。但由于带宽资源和时间有限,就算是最大的搜索引擎也只是爬行和收录了互联网的一小部分内容。
二,预处理
预处理的主要内容是进行索引。搜索引擎所抓取的原始页面并不能用来排名、呈现在用户面前。如果要在用户输入搜索词后再靠排名程序分析数万亿的页面的话,就需要太长时间来返回排名结果,因此,预处理就是必要的了。
预处理主要是通过提取文字、去停止词(去掉感叹词、没有意义的副词等等)、消除不相关的内容、去重等一系列工作,最终将网站进行正向索引和倒排索引,计算链接关系,最终对网站的页面内容质量以及外链进行判断,最终得出一个对网站的质量评价。
质量评价可能包含很多因素,包括但不限于用户体验、关键词提取、页面排版、内容质量等等。
三,排名
在进行过预处理后,搜索引擎就可以随时处理用户的搜索请求了,当搜索引擎接收到用户输入的搜索词后,需要对搜索词进行一些处理才能进入排名过程。
这些处理和预处理时类似,需要去停止词,纠正错误拼写,整合触发搜索,判断用户的搜索意图,处理用户的指令。
经过处理的搜索词是一个以词为基础的关键词集合,搜索引擎会通过这个关键词集合迅速造出包含关键词的所有文件,随后进行相关性计算,关键词出现的次数越多,文件与关键词的相关性也就越高,当然,与网页本身无关,为了出现而出现的关键词是会被算法排除的。
在进行排名过滤和调整后,最终就会将结果页呈现在用户面前,这样一次搜索就完成了。