蜘蛛疯狂抓取 jquery-1.3.2.min.js  文件是怎么回事?

最近发现一个老站排名全部掉了,就去观察了IIS日志





状况1:这3个目录 robots:都禁止的。以前没这种现象。就最近一个星期每天这样。





状况2:Disallow: /.js$ js文件都被禁止的,网站中从未出现过jquery-1.3.2.min.js  没曾引用过。已经检测了N次,站内绝对没有出现过jquery-1.3.2.min.js
状况3:蜘蛛大肆抓取每一个频道、栏目 下不存在的/ images/ jquery-1.3.2.min.js  链接被返回404
状况4:百度站长平台里面没有异样,404页面也没有异样。
其他:只有百度蜘蛛这样,其他蜘蛛正常。
追加问题
    4 人参与回答
姬成
姬成 · 搜外论坛技术区版主
清文李广 等 2 人赞同该回答

爬虫确实抓取禁掉的css和JS,
我猜想是不是百度通过css和js来判断是不是作弊,判断你的页面是不是有弹窗,有针对普通浏览器用户的内容.有针对百度的内容.

王小拿
王小拿 · 请叫我路人甲
清文 等 1 人赞同该回答

我也发现 百度蜘蛛开始爬明明禁止掉的css和JS

王生
王生 · 万变不离其宗,Seoer
清文 等 1 人赞同该回答

这种情况应该一般是蜘蛛吃药了,

之前的A站点被惩罚后连续观察了俩个月的日志不单单在抓取 文件 还有其他的JS文件,正常的文章,却一带而过;

B站点被惩罚后,不单单抓取被Robots禁止的JS文件同时还抓取,很早之前就删除的目录;

难道这就是传说中的沙盒蜘蛛又名傻猪。

徐楚生
徐楚生 · 一个从事网络营销的小伙子
清文 等 1 人赞同该回答

这种情况之前也遇到过。Robots里单独写个规则禁止下