background image

网站频繁出现

304 状态码及抓取蜘蛛次数较少的原因分

    经常会碰到站长们抱怨蜘蛛抓取返回码老是 304 状态,且抓取的次数越来越少的问题。搜
索引擎为了自身的用户体验,会想尽办法来提高检索调用率、准确性、新鲜度,这将导致引
擎不得不把主要的精力放在拥有优质内容源的网站上。惟其如此,搜索结果的质量才能更加
符合搜索者的体验。

由此我们联想到:搜索引擎爬虫会更加青睐内容源更新频繁的网站。通过特定时间内对

网站抓取返回的状态码来调节对该网站的抓取频繁。若网站在一定时间内一直处于

[304:没

有变化

]的状态,那么引擎爬虫可能会降低对网站的抓取次数。相反,若网站变化的频率非

常之快,每次抓取都能获取新版本,那么日积月累,爬虫的回访率也会提高。

无论是抓取少还是

304,这都是一种现象,并不是问题的原因,假设网站返回的都是

200,就能达到提升排名带来流量的目的么?相比之下更应该思考产生 304 的原因是什么?

304 对网站目标能够有什么样的效果?不能忽视整体的目标而强调过程的细节,为了

200 而去解决 304。

304 状态是如何产生?

服务器为了提高网站访问速度,对之前访问的部分页面制定缓存机制,当客户端在此

对这些页面进行请求,服务器会根据缓存内容判断页面与之前是否相同,若相同便直接返

304,此时客户端调用缓存内容,不必进行二次下载,可以说 304 从某种角度起到了减

少服务器带宽并提高蜘蛛爬行效率的作用。

    304 状态产生原因?

1、页面更新周期长或不更新

    2、纯静态页面或强制生成静态 html

    304 状态处理思路?

1、先对产生 304 页面进行细分,到底是哪类页面返回了 304?这些页面是否应该返回

304?
    2 这些页面生成的方式是怎样的?是否有更新机制?更新机制是否符合蜘蛛对网站的抓
取频率?
    3、页面更新区域的位置是否合理?是否位于该页面主要内容的承载区域?

    304 状态码出现过多会造成以下问题:

1、网站快照停止

    2、收录减少