网站日志遇到问题不太懂,求解决。





之前用工具看了下百度对网站每个目录的抓取量,发现/r/和/ad/2个目录比较大,r之前是个目录,后来修改成子站了,但是之前和现在的详情页都可以打开,这个问题我是准备直接做301就好。

上图是/ad/这个目录的问题,我是通过表格筛选出来的一部分,筛选条件。包含Baiduspider与/ad/
请求方式是post,有/ad/showAds.shtml和r.renhe.cn/...这样的链接。

首先说下这个网站日志是www下的,不是r的。post我知道是请求表单类型的。

几个问题:post和百度抓取没有直接联系吧。另外对于上面的2个链接是怎么回事。get请求为啥只有1个链接。
这样的抓取是不是太浪费资源,我是否可以直接屏蔽掉:/ad/showAds.shtml

求好心人回答,谢谢。
追加问题
    3 人参与回答
徐楚生
徐楚生 · 一个从事网络营销的小伙子
邹远东 等 1 人赞同该回答

如果是没用的页面,你可以Robots掉这个链接,禁止百度蜘蛛爬取

姬成
姬成 · 搜外论坛技术区版主
邹远东 等 1 人赞同该回答

我基本上没有见过百度post网页,这个可能是假的百度爬虫。
如何判断是否百度爬虫,搜索一下我发的识别百度工具吧。我就不做广告了。

黎亦峰
黎亦峰 · 坚持自己,创新做事情
邹远东 等 1 人赞同该回答

post和百度抓取没有直接联系吧。另外对于上面的2个链接是怎么回事。get请求为啥只有1个链接。
这个没有研究,一般看抓取纪录,我是看下,蜘蛛是不是抓取有用的页面,抓取过多不相关的,一般都会减少入口,没有用的直接屏蔽掉即可。

这样的抓取是不是太浪费资源,我是否可以直接屏蔽掉:/ad/这个是的直接屏蔽即可。

可以再用光年看看蜘蛛的抓取目录。