请问如何用Robots文件禁止百度蜘蛛抓取特定类型的链接? 悬赏3元 已结束
请问如何用Robots文件禁止百度蜘蛛抓取包含有“guestbook-sid-[?]
” 的网址 完整网址是这样的:https://www.xxxx.com/shop/guestbook-sid-24447.html[?]
15 人参与回答
直接把连接加进去。。。
代码:
User-agent: *
Disallow: /shop/*guestbook-sid*.html
解释:
User-agent:
用于指定某个搜索引擎蜘蛛,如果使用通配符*代表所有的搜索引擎蜘蛛,如:
User-agent: Baiduspider指的是指定百度蜘蛛;
User-agent: Googlebot 指的是指定谷歌蜘蛛。
Disallow: /
代表着禁止抓取网站的某些内容,如“/”后面没有任何参数代表禁止抓取网站所有内容。
Disallow: /admin/ 禁止抓取admin目录下的所有内容;
Disallow: /cgi-bin/*.htm 禁止抓取/cgi-bin目录下的所有以.htm结尾的文件;
Disallow: /*?* 禁止抓取网站中所有包含问号 (?) 的网址;
Disallow:/ab/ 禁止抓取ab文件夹下面的文件;
你禁止动态就可以了,动态不太友好
禁止他爬存页面的文件夹
Disallow: /guestbook-*
这个禁止不了,该来抓取还是一样来的