问题如下:
例如有网站www.abc.com,有www.abc.com/news?_bd=225 和www.abc.com/news两个链接,我想让蜘蛛抓取www.abc.com/news里面的内容,而不想让蜘蛛抓取www.abc.com/news?_bd=225这个内容,应该如何设置robots文件呢?
求大神指教!!!
1、网站内部不要给?xxx这样的URL有通道,蜘蛛抓取不到,也就不会被收录;
2、网站明确是全都是静态类,无动态URL,不需要?xxx这类URL被抓取,那么可屏蔽动态URL;
ps:Disallow: /*?*
这个是屏蔽动态,但是如果你网站里面有tag,或者其他页面是动态也会被屏蔽,因此使用这个要小心些,一般站内不留通道,影响不大,也无须可以屏蔽。
如果是所有动态链接都不想被抓取的话写 Disallow: /? Disallow: *?_bd=225
站长工具里就有一键生成的
allow disallow这些,网上搜搜
bd一下Robots协议
这个真不是很清楚~
Disallow:/news?*
或者
Disallow:/news?_bd=*
@推推蛙 老师
写:disallow /
让更多人参与回答