HTML5网页设计

网站优化

搜索引擎对复制网页的算法

时间:2011-06-01 14:38来自:未知作者:admin点击:
以下主要从 SEO 的角度来简单谈谈搜索引擎是如何判定复制网页的,如果想更深入地了解这一基本原理,可以参考《 搜索引擎原理、技术与系统 》(李晓明等著)和 《 搜索引擎原理、实践与应用 》(卢亮、张博文编著)这两本书。 首先,搜索引擎对所索引的所有网

以下主要从SEO的角度来简单谈谈搜索引擎是如何判定复制网页的,如果想更深入地了解这一基本原理,可以参考《搜索引擎——原理、技术与系统》(李晓明等著)和 《搜索引擎原理、实践与应用》(卢亮、张博文编著)这两本书。

首先,搜索引擎对所索引的所有网页进行页面净化和内部消重。

任 何一家搜索引擎在尚未进行复制网页判断这一操作之前都定然会有个网页净化和内部消重的过程。搜索引擎首先要清除噪音内容,对网页内部的广告、版权信息、共 同的页眉页脚部分等进行净化,然后提取出该页面的主题以及和主题相关的内容,用以排名工作,噪音内容是不计入排名权重之中的。消重也差不多是这个意思,搜 索引擎对其所收集的网页集里面主题相同或极端相似的,比如同一模板之中多次出现的共同代码,将其作为冗余内容,进行消除。

我们可以这样理解,最理想的状态之下,一篇原创文章,搜索引擎仅将标题和内容计入排名之中,其他全部都消除。

DocView模型就是一个自动分类和消重的模型,当然,不是非常准确。大家可以简单了解一下,DocView模型包括网页表识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等要素,它通过提取DocView模型要素的方法应用在网页自动分类和网页消重之中。

通过了解以上内容,我们就能大致明白,同一篇文章,为什么放到两个完全不同模板的站点之上,搜索引擎仍然能够正确识别出这是一个复制页面的原因了吧。

其次,搜索引擎对净化的页面进行重复内容的判断。

那么搜索引擎具体是如何判断复制页面的呢?以下内容是北大天网搜索引擎的去重算法,大部分来自对《搜索引擎——原理、技术与系统》相关知识的整理,大家可以自行参考相关文档。

现有方法大致可以分为以下三类:

1、利用内容计算相似
2、结合内容和链接关系计算相似
3、结合内容,链接关系以及url文字进行相似计算

现有绝大部分方法还是利用文本内容进行相似识别,其它两种利用链接关系以及URL文字的方法还不是很成熟,而且从效果看引入其它特征收效并不明显,所以从实际出发还是选择利用内容进行相似计算的算法。

搜 索引擎判断复制网页一般都基于这么一个思想:为每个网页计算出一组信息指纹(信息指纹,英文是Fingerprint,就是把网页里面正文信息,提取一定 的信息,可以是关键字、词、句子或者段落及其在网页里面的权重等,对它进行加密,如MD5加密,从而形成的一个字符串。信息指纹如同人的指纹,只要内容不 相同,信息指纹就不一样。搜索引擎在对爬取的网页建立索引的时候需要对重复内容的网页进行识别和消重,这就要用到信息指纹),若两个网页有一定数量相同的 信息指纹,则认为这两个网页的内容重叠性很高,也就是说两个网页是内容复制的。注意一点,算法提取的信息不是针对整张网页,而是把网站里面共同的部分如导 航条、logo、版权等这些网页的噪音信息过滤掉后剩下的文本。

很多搜索引擎判断内容复制的方法都不太一样,主要是以下两点的不同:

1、计算信息指纹的算法;
2、判断信息指纹的相似程度的参数。

当前文章地址:http://www.shejicool.com/web/seo/120.html

阅完本篇文章?您还可以: 收藏本文 文章挑错 朋友推荐