我的站蜘蛛抓取15000次,造成CDN流量过大,费用过高,请问有什么好办法,让蜘蛛不通过CDN,直接采集原服务器内容
我的站蜘蛛抓取15000次,造成CDN流量过大,费用过高,请问有什么好办法,让蜘蛛不通过CDN,直接采集原服务器内容,但是据说这样会增加源站的压力,还是这就是必须付出的代价。
我是个企业站,其实没有这么大的流量,实际流量不过才30多,但是蜘蛛疯了。
3 人参与回答
这是个好问题,过来学习下
短期处理措施:
蜘蛛抓取量骤增,导致CDN流量大费用高或服务器负载很高。可以考虑用nginx的ngx_http_limit_req_module模块限制百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取200次,多余的抓取请求返回503。
你可以登录到百度站长帐户并转到数据监控 – >抓取频次,在这里看每天的抓取频次。
但根本解决问题,要找出蜘蛛发疯原因,针对性解决:
如果你的抓取频次过高的话可能是因为以下几种情况的原因:
1、Robots.txt没设置好,导致蜘蛛大量抓取一些内部的没用的页面,包括以及一些重复页面。
2、网站的过度优化,百度蜘蛛对网站的过度优化是很敏感的,它喜欢自然的东西,刻意优化会造成让它反感甚至有作弊嫌疑,当你的网站有作弊嫌疑的时候,蜘蛛大军就会大量造访你的网站,每一个蜘蛛的分工都不同,其目的就是在你的网站上找出充分的证据证明你是作弊的,它会把各种算法通过蜘蛛集中放到你的网站上去验证,能不能躲过此劫,就看你是不是真的作弊了。3、网站结构不合理性导致蜘蛛进入循环黑洞,爬取不顺畅。