搜索引擎优化指南:搜索引擎是怎样工作的

这是一个简单的搜索引擎优化指南,我们都知道,搜索引擎在使用时非常快捷便利,但背后的工作过程却非常复杂,下面就来简单介绍一下搜索引擎具体是怎么工作的。

搜索引擎的工作过程可以分作三阶段:爬行抓取,预处理和排名。

一,爬行与抓取
搜索引擎的爬行主要是依赖蜘蛛(spider)进行,搜索引擎蜘蛛是一种用来爬行和访问页面的程序,它发送页面请求访问,服务器返回HTML代码,蜘蛛会把这个代码存入原始数据库。

为了抓取越来越多的页面,搜索引擎蜘蛛会随着页面链接从一个页面到另一个页面,就像蜘蛛在网上爬行一样,这也是它名称的由来。
搜索引擎是怎样工作的
相互链接的网站和页面组成了整个互联网,因此,蜘蛛从任何一个页面出发,理论上可以爬到任何网站(除了那些没有建立链接的网站)。蜘蛛的爬行策略有两种,一种是深度优先,从一个页面爬到下一个页面,直到没有页面可以爬了再回到第一个继续沿其他链接爬。第二种是广度优先,先把页面所有的第一层链接爬一遍,再到下一个页面去。

无论是哪种策略,只要时间足够,蜘蛛都可以爬完整个互联网。但由于带宽资源和时间有限,就算是最大的搜索引擎也只是爬行和收录了互联网的一小部分内容。

二,预处理
预处理的主要内容是进行索引。搜索引擎所抓取的原始页面并不能用来排名、呈现在用户面前。如果要在用户输入搜索词后再靠排名程序分析数万亿的页面的话,就需要太长时间来返回排名结果,因此,预处理就是必要的了。

预处理主要是通过提取文字、去停止词(去掉感叹词、没有意义的副词等等)、消除不相关的内容、去重等一系列工作,最终将网站进行正向索引和倒排索引,计算链接关系,最终对网站的页面内容质量以及外链进行判断,最终得出一个对网站的质量评价。

质量评价可能包含很多因素,包括但不限于用户体验、关键词提取、页面排版、内容质量等等。

三,排名
在进行过预处理后,搜索引擎就可以随时处理用户的搜索请求了,当搜索引擎接收到用户输入的搜索词后,需要对搜索词进行一些处理才能进入排名过程。

这些处理和预处理时类似,需要去停止词,纠正错误拼写,整合触发搜索,判断用户的搜索意图,处理用户的指令。

经过处理的搜索词是一个以词为基础的关键词集合,搜索引擎会通过这个关键词集合迅速造出包含关键词的所有文件,随后进行相关性计算,关键词出现的次数越多,文件与关键词的相关性也就越高,当然,与网页本身无关,为了出现而出现的关键词是会被算法排除的。

在进行排名过滤和调整后,最终就会将结果页呈现在用户面前,这样一次搜索就完成了。

近期文章

搜索引擎蜘蛛抓取份额是什么?(转载自ZAC博客)

什么是搜索引擎蜘蛛抓取份额? 顾名思义,抓取份额是搜索引擎蜘蛛花在一个网站上的抓取页面的总 ...

2022年8月谷歌算法更新!

谷歌最近正在推出一项全站算法更新,称为“helpful content update”,它 ...

关键词排名剧烈波动的原因(转载自ZAC博客)

读者问了一个关键词排名剧烈波动的问题: Zac老师您好: 关键词排名排到首页一天,第二天掉 ...

怎样把Google排名优化到第0位?(转载自ZAC博客)

之前的文章中提到一句话:问句式查询近年来占比越来越大,是个可以挖掘的新机会。 之所以问句式 ...

搜索引擎自己怎么做SEO(转载自ZAC博客)

和其他网站一样,搜索引擎本身也需要做SEO。 以前本博客上就替朋友发过雅虎、微软招聘SEO ...

Google排名高的是什么样的页面?(转载ZAC博客)

backlinko发布过一份根据1百万搜索结果统计出来的Google排名数据,说明了什么样 ...