对于蜘蛛的爬取未必多就好　

一、搜索引擎的蜘蛛，是不是爬得越多越好?
　　当然不是

!不论什么搜索引擎的爬虫，来抓取你网站的页面的时候，肯定在消耗你的网

站资源，例如网站的连接数、网络带宽资源

(空间流量)、服务器的负载、甚至还有盗链等。不

是所有的搜索引擎蜘蛛都是有用的。另外，搜索引擎的爬虫来抓取你的页面数据后，它也不
一定收用数据。只代表它

“到此一游”留下痕迹而已，有的搜索引擎室故意过来找它想要的资

源，甚至还有很多是开发人员的蜘蛛测试。
　　对于一个原创内容丰富，

URL 结构合理易于爬取的网站来说，简直就是各种爬虫的盘

中大餐，很多网站的访问流量构成当中，爬虫带来的流量要远远超过真实用户访问流量，
甚至爬虫流量要高出真实流量一个数量级。像提高网站有效利用率虽然设置了相当严格的反
爬虫策略，但是网站处理的动态请求数量仍然是真实用户访问流量的

2 倍。可以肯定的说，

当今互联网的网络流量至少有

2/3 的流量爬虫带来的。因此反搜索引擎爬虫是一个值得网站

长期探索和解决的问题。

　　搜索引擎爬虫对网站的负面影响
　　

1.网站有限的带宽资源，而爬虫的量过多，导致正常用户访问缓慢。原本虚拟主机主机

的连接数受限，带宽资源也是有限。这种情况搜索引擎爬虫受影响呈现更明显。
　　

2.搜索引擎爬虫过频密，抓取扫描很多无效页面。甚至抓页面抓到服务器报 502、500 、

504 等服务器内部错误了，蜘蛛爬虫还在不停使劲抓取。
　　

3.与网站主题不相关的搜索引擎爬虫消耗资源。

　　典型的例子搜索引擎

“一淘网蜘蛛(EtaoSpider)为一淘网抓取工具。被各大电子商务购物

网站屏蔽。拒绝一淘网抓取其商品信息及用户产生的点评内容。被禁止的原因首先应该是它
们之间没有合作互利的关系，还有就是

EtaoSpider 爬虫是一个抓取最疯狂的蜘蛛。统计发现

EtaoSpider 爬虫的一天爬行量比“百度蜘蛛：Baiduspider”“360 蜘蛛：360Spider”“SOSO 蜘蛛：
Sosospider”等主流蜘蛛爬虫多几倍，并且是远远的多。重点是 EtaoSpider 被抓取只会消耗你
的网站资源，它不会给你带来访问量，或者其它对你有利用的。
　　

4.一些搜索引擎开发程序员，它们写的爬虫程序在测试爬行。

5.robots.txt 文件不是万能!

　　肯定有很多人认为，在

robots.txt 设置屏蔽搜索引擎爬虫即可，或者允许某些特定的搜

索引擎爬虫，能达到你预想效果。不错正规搜索引擎会遵守规则，不过不会及时生效。但是
实际中某些蜘蛛往往不是这样的，先扫描抓取你的页面，无视你的

robots.txt。也可能它抓取

后不一定留用

;或者它只是统计信息，收集互联网行业趋势分析统计。

6.还有一种它们不是蜘蛛，但其有蜘蛛的特性。例如采集软件，采集程序，网络扫描 e-

mail 地址的工具，各式各样的 SEO 分析统计工具，千奇百怪的网站漏洞扫描工具等等。
　　二、有效指引搜索引擎对应的措施，及解决方法：
　　

1.依据空间流量实际情况，就保留几个常用的屏蔽掉其它蜘蛛以节省流量。以暂时空间

流量还足够使用，先保证正常浏览器优先。
　　

2.从服务器防火墙 iptable 直接屏蔽蜘蛛 IP 段、详细的 IP。这是最直接、有效的屏蔽方法。

3.WWW 服务器层面做限制。例如 Nginx，Squid，Lighttpd，直接通过“http_user_agent”

屏蔽搜索引擎爬虫。
　　

4.最后 robots.txt 文件做限制。搜索引擎国际规则还是要遵循规则的。