5 人参与回答
User-agent: * *代表所有搜索引擎,也可指定搜索引擎,如指定百度,User-agent: BaiduspiderDisallow: /a/ 这里定义是禁止抓取a目录下面的所有内容Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片Disallow:/ab/ 禁止爬取ab文件夹下面的文件。Allow: /cgi-bin/a/ 这里定义是允许爬寻cgi-bin目录下面的a目录Allow: /tmp 这里定义是允许爬寻tmp的整个目录Allow: .htm$ 允许访问以”.htm”为后缀的URL。Allow: .gif$ 允许抓取网页和gif格式图片Sitemap: 网站地图,告诉爬虫这个页面是网站地图