background image

测任务在搜索引擎中所处流程的说明。当爬虫新抓取到网页时,需要和已经建立到索引内的

网页进行重复判断,如果判断是近似重复网页,则直接将其抛弃,如果发现是全新的内容

则将其加入网页索引中。