HTML5网页设计

网站优化

搜索引擎对复制网页的算法(2)

时间:2011-06-01 14:38来自:未知作者:admin点击:
部分算法简介: 1、分段签名算法 这 种算法是按照一定的规则把网页切成N段,对每一段进行签名,形成每一段的信息指纹。如果这N个信息指纹里面有M个相同时(m是系统定义的阙值),则认为两 者是复制网页。这种算法对
部分算法简介:

1、分段签名算法

这 种算法是按照一定的规则把网页切成N段,对每一段进行签名,形成每一段的信息指纹。如果这N个信息指纹里面有M个相同时(m是系统定义的阙值),则认为两 者是复制网页。这种算法对于小规模的判断复制网页是很好的一种算法,但是对于像Google这样海量的搜索引擎来说,算法的复杂度相当高。

2、基于关键词的复制网页算法

像Google这类搜索引擎,他在抓取网页的时候都会记下网页中出现的关键词(中文分词技术)以及每个关键词的权重(关键词密度)以及提取meta descrīption或者每个网页的512个字节的有效文字。

假 设我们约定Pi表示第i个网页;该网页权重最高的N个关键词构成集合Ti={t1,t2,...tn},其对应的权重为Wi= {w1,w2,...wi},摘要信息用Des(Pi)表示,前n个关键词拼成的字符串用Con(Ti)表示,对这n个关键词排序后形成的字符串用 Sort(Ti)表示。

以上信息指纹都用MD5函数进行加密。

基于关键词的复制网页算法有以下5种:

  • 1、MD5(Des(Pi))=MD5(Des(Pj)),就是说摘要信息完全一样,i和j两个网页就认为是复制网页;
  • 2、MD5(Con(Ti))=MD5(Con(Tj)),两个网页前n个关键词及其权重的排序一样,就认为是复制网页;
  • 3、MD5(Sort(Ti))=MD5(Sort(Tj)),两个网页前n个关键词一样,权重可以不一样,也认为是复制网页。
  • 4、MD5(Con(Ti))=MD5(Con(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某个阙值a,则认为两者是复制网页。
  • 5、MD5(Sort(Ti))=MD5(Sort(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某个阙值a,则认为两者是复制网页。

关于第4和第5的那个阙值a,主要是因为前一个判断条件下,还是会有很多网页被误伤,搜索引擎开发根据权重的分布比例进行调节,防止误伤。

以上5种算法运行的时候,算法的效果取决于N,就是关键词数目的选取。选的数量越多,判断就会越精确,但是计算速度也会越慢。所以必须考虑一个计算速度和去重准确率的平衡,根据试验结果,10个左右关键词最为恰当。

当然,以上算法只是给SEO一个思路而已,并非搜索引擎判断复制网页的全部算法。只要在SEO的过程中注意原创和“伪原创”,大可不必太在乎这个算法。

当前文章地址:http://www.shejicool.com/web/seo/120.html

阅完本篇文章?您还可以: 收藏本文 文章挑错 朋友推荐