网站加了cdn,蜘蛛抓取304很频繁,这要怎么搞,有没有大神懂的 悬赏3元 已结束
没加cdn之前蜘蛛抓取一直是200,从未有过304,加了cdn之后一直出现304,导致首页site都不在第一了
304状态是如何产生?
服务器为了提高网站访问速度,对之前访问的部分页面制定缓存机制,当客户端在此对这些页面进行请求,
服务器会根据缓存内容判断页面与之前是否相同,若相同便直接返回304,此时客户端调用缓存内容,不必进行二次下载,
可以说304从某种角度起到了减少服务器带宽并提高蜘蛛爬行效率的作用。
304状态产生原因?
1、页面更新周期长或不更新
2、纯静态页面或强制生成静态html
304状态处理思路?
1、先对产生304页面进行细分,到底是哪类页面返回了304?这些页面是否应该返回304?
2、这些页面生成的方式是怎样的?是否有更新机制?更新机制是否符合蜘蛛对网站的抓取频率?
3、页面更新区域的位置是否合理?是否位于该页面主要内容的承载区域?
有的童鞋也对此情况做了分析,304状态码出现过多会造成以下问题:
1、网站快照停止
2、收录减少
3、权重下降
那么如何减少304返回码呢?
首先内容更新方面要迎合百度蜘蛛,分析日志,把蜘蛛到访的时间记录下来,可以大致得出蜘蛛到访的频率,
然后以此为依据。更新文章:一定是原创+转载,不能纯采集。
转载也需要最新最好的优质资源。让蜘蛛这个点过来能有吃的。从而返回更多 200 正常码。
其次呢,最好增加个互动版块,现在大网站基本已经都做了这方面,比如评论、留言等,
大网站更新起来变化可能会很小,但是有了这些互动,用户会在上面发些内容,网站会有很多新的东西。
如seowhy,就会把最新回复以及问题放在重要位置。
总结
关于频繁返回 304 状态以及抓取次数较少的问题,目的是为了让网站充分的被抓取。
除了以上达人分析的原因外,还有一种可能是:引擎蜘蛛同样也会参考网站综合权重,对于权重高的网站抓取频率会很频繁
304状态是如何产生?
服务器为了提高网站访问速度,对之前访问的部分页面制定缓存机制,当客户端在此对这些页面进行请求,
服务器会根据缓存内容判断页面与之前是否相同,若相同便直接返回304,此时客户端调用缓存内容,不必进行二次下载,
可以说304从某种角度起到了减少服务器带宽并提高蜘蛛爬行效率的作用。
304状态产生原因?
1、页面更新周期长或不更新
2、纯静态页面或强制生成静态html
304状态处理思路?
1、先对产生304页面进行细分,到底是哪类页面返回了304?这些页面是否应该返回304?
2、这些页面生成的方式是怎样的?是否有更新机制?更新机制是否符合蜘蛛对网站的抓取频率?
3、页面更新区域的位置是否合理?是否位于该页面主要内容的承载区域?
有的童鞋也对此情况做了分析,304状态码出现过多会造成以下问题:
1、网站快照停止
2、收录减少
3、权重下降
那么如何减少304返回码呢?
首先内容更新方面要迎合百度蜘蛛,分析日志,把蜘蛛到访的时间记录下来,可以大致得出蜘蛛到访的频率,
然后以此为依据。更新文章:一定是原创+转载,不能纯采集。
转载也需要最新最好的优质资源。让蜘蛛这个点过来能有吃的。从而返回更多 200 正常码。
其次呢,最好增加个互动版块,现在大网站基本已经都做了这方面,比如评论、留言等,
大网站更新起来变化可能会很小,但是有了这些互动,用户会在上面发些内容,网站会有很多新的东西。
如seowhy,就会把最新回复以及问题放在重要位置。
总结
关于频繁返回 304 状态以及抓取次数较少的问题,目的是为了让网站充分的被抓取。
除了以上达人分析的原因外,还有一种可能是:引擎蜘蛛同样也会参考网站综合权重,对于权重高的网站抓取频率会很频繁。
看看你网站的状态码是不是200