您好,欢迎来到一览文库!找行业资料上一览文库!
一览( 微信公众号:yilanshequ )

一览( 微信公众号:yilanshequ )

打开微信扫一扫,即可直接关注

收藏我们 | 登录 | 注册
当前位置:一览文库> 总监/事业部总经理/运营主管 > 搜索引擎网页去重算法
搜索引擎网页去重算法

搜索引擎网页去重算法

一览通:免费获取520份薪酬绩效文档

级别:| 积分:0 分 | 浏览:74047 | 大小:13.50KB | 下载:4095 次 | 上传:2013-08-21

简介:

  据统计表明,近似重复网页的数量占总网页数量的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%,即互联网页面中有相当大的比例的内容是完全相同或者大体相近的重复网页有多种类型,这些重复网页有的是没有一点儿改动的副本,有的在内容上稍做修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如HTML、Postscript)。内容重复可以归结为以下4种类型。

[展开]
     

猜你喜欢

收藏 下载此文档 所需积分:0分