快捷搜索:  seo  robots  url  关键词  爬虫  301  ugc  ucg

南京SEO:搜索引擎搜索原理介绍

一、搜索原理

网络蜘蛛即WebSpider,如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

1、抓取

搜索引擎会和普通访问者一样,顺着网页上的链接一个个下载我们的网页,为下一步的预处理做准备。

2、预处理

①.判断是否符合其收录规则,符合收录规则的再继续处理

②.对文章进行分词处理

把网页中的文章切成一个个的词语。度量文档之间的相关性,以及为建立倒排索引做准备。并记录词出现的位置。

③. 建立倒排索引

在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合

把文件ID对应到关键词的映射转换为关键词到文件ID的映射。

用词来索引网页,好处在于:搜索引擎的用户输入的也是词,这样可以方便地查找到相关的网页。

3、检索

①.对用户查询的关键词进行分词,取索引的交集

②.排序

重要性——网页静态质量得分。搜索引擎把网站的各种表现情况转换成一个个分值,这些分值加起来,就得到一个页面的质量得分,即所谓的权重。

a、页面信噪比:

页面信噪比是指页面内正文与非正文的比例,页面信噪比至少要大于1。

b、稀缺性

c、链接控制:

链接控制分链接数量和链接自然性。一个页面权重是固定的,链接可以传递权重,链接越多,每一个链接传递的权重越低。

d、页面的浏览量

相关性——上面通过倒排索引只能定性地知道网页和查询词之间是否相关,但谁更相关即定量是没办法知道的。百度处理方式:

a、记录词出现的位置,不同位置的关键词权重不同。

b、tf-idf算法,即一个词在一篇文章中出现的次数最多,这个词的权重越高;一个词在整个互联网中出现的次数越多,(如“我”、“的”这种词,对于一篇文章主题的鉴别能力不强,每篇文章几乎都出现)这个词的权重越小。

您可能还会对下面的文章感兴趣: