搜外网>搜外问答>问答页面

我的站蜘蛛抓取15000次,造成CDN流量过大,费用过高,请问有什么好办法,让蜘蛛不通过CDN,直接采集原服务器内容

我的站蜘蛛抓取15000次,造成CDN流量过大,费用过高,请问有什么好办法,让蜘蛛不通过CDN,直接采集原服务器内容,但是据说这样会增加源站的压力,还是这就是必须付出的代价。

我是个企业站,其实没有这么大的流量,实际流量不过才30多,但是蜘蛛疯了。

追加问题
    3 人参与回答

这是个好问题,过来学习下

黄勇
黄勇 · SEO需要的是结果,过程再完美也是没有价值的!

高级点的DNS解析有“搜索引擎线路”,单独给搜索引擎解析到服务器IP,不经过CDN就可以。推荐dnspod

短期处理措施:

蜘蛛抓取量骤增,导致CDN流量大费用高或服务器负载很高。可以考虑用nginx的ngx_http_limit_req_module模块限制百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取200次,多余的抓取请求返回503。

你可以登录到百度站长帐户并转到数据监控 – >抓取频次,在这里看每天的抓取频次。


但根本解决问题,要找出蜘蛛发疯原因,针对性解决:


如果你的抓取频次过高的话可能是因为以下几种情况的原因:

1、Robots.txt没设置好,导致蜘蛛大量抓取一些内部的没用的页面,包括以及一些重复页面。

2、网站的过度优化,百度蜘蛛对网站的过度优化是很敏感的,它喜欢自然的东西,刻意优化会造成让它反感甚至有作弊嫌疑,当你的网站有作弊嫌疑的时候,蜘蛛大军就会大量造访你的网站,每一个蜘蛛的分工都不同,其目的就是在你的网站上找出充分的证据证明你是作弊的,它会把各种算法通过蜘蛛集中放到你的网站上去验证,能不能躲过此劫,就看你是不是真的作弊了。

3、网站结构不合理性导致蜘蛛进入循环黑洞,爬取不顺畅。