background image

搜索引擎网页去重算法

据统计表明,近似重复网页的数量占总网页数量的比例高达全部页面的

29%,而完全

相同的页面大约占全部页面的

22%,即互联网页面中有相当大的比例的内容是完全相同或者

大体相近的重复网页有多种类型,这些重复网页有的是没有一点儿改动的副本,有的在内

容上稍做修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页

的格式不同(如

HTML、Postscript)。内容重复可以归结为以下 4 种类型。

·  类型一:如果两篇文档内容和布局格式上毫无差别,则这种重复可以叫做完全重复

页面。

·  类型二:如果两篇文档内容相同,但是布局格式不同,则叫做内容重复页面。

·  类型三:如果两篇文档有部分重要的内容相同,并且布局格式相同,则称为布局重

复页面。

   

·  类型四:如果两篇文档有部分重要的内容相同,但是布局格式不同,则称为部分重

复页面。

所谓近似重复网页发现,就是通过技术手段快速全面发现这些重复信息的手段,如何

快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。

发现完全相同或者近似重复网页对于搜索引擎有很多好处。

1.  首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省一部分存储

空间,进而可以利用这部分空间存放更多的有效网页内容,同时也提高了搜索

    引擎的搜

索质量和用户体验。

2.  其次,如果我们能够通过对以往收集信息的分析,预先发现重复网页,在今后的网

页收集过程中就可以避开这些网页,从而提高网页的收集速度。有研究表明重

    复网页随着

时间不发生太大变化,所以这种从重复页面集合中选择部分页面进行

    索引是有效的。

3.  另外,如果某个网页的镜像度较高,往往是其内容比较受欢迎的一种间接体现也就

预示着该网页相对重要,在收集网页时应赋予它较高的优先级,而当搜索引擎系统在响应

用户的检索请求并对输出结果排序时,应该赋予它较高的权值。

4.  从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个内容

相同页面,这样可以有效地增加用户的检索体验。因而近似重复网页的及时发现有利于改善

搜索引擎系统的服务质量。

实际工作的搜索引擎往往是在爬虫阶段进行近似重复检测的,下图给出了近似重复检