Robots你好好理解查一下吧,简单的问题
1、通过 Robots.txt 文件屏蔽
可以说 robots.txt 文件是最重要的一种渠道(能和搜索引擎建立直接对话),给出以下建议:
User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通过 meta tag 屏蔽
在所有的网页头部文件添加,添加如下语句:
3、通过服务器(如:linux/nginx )配置文件设置
直接过滤 spider/robo
这个简单
Robots.txt只是行业规则,搜索爬虫按照其指示爬取页面
但是并不是爬取不了页面,
robot.txt中禁止爬取指令:
User-agent: *
Disallow: /
解释:
此指令代表禁止所有的搜索引擎抓取网站的任何部分。此指令常用于站点不想被搜索引擎收录或者建站初期,当网站结构没有建设完成的时候,我们是不希望搜索引擎抓取网站任何内容的。
1、User-agent:
用于指定某个搜索引擎蜘蛛,如果使用通配符*代表所有的搜索引擎蜘蛛,如:
User-agent: Baiduspider指的是指定百度蜘蛛;
User-agent: Googlebot 指的是指定谷歌蜘蛛。
2、Disallow: /
代表着禁止抓取网站的某些内容,如“/”后面没有任何参数代表禁止抓取网站所有内容。我们来学习一下参数后面分别代表的含义:
Disallow: /admin/ 禁止抓取admin目录下的所有内容;
Disallow: /cgi-bin/*.htm 禁止抓取/cgi-bin目录下的所有以.htm结尾的文件;
Disallow: /? 禁止抓取网站中所有包含问号 (?) 的网址;
Disallow:/ab/ 禁止抓取ab文件夹下面的文件;
在这里重点强调一点,Disallow指令有一个比较特殊的地方,Disallow: /代表着禁止抓取,但是Disallow: 代表着允许抓取,如:
User-agent: *
Disallow:
此指令代表允许所有的搜索引擎抓取网站的任何内容。
3、Allow:/
该指令用于允许蜘蛛抓取某些文件。Allow:/指令后面的参数与Disallow指令相同,如:
User-agent: *
Disallow: /a/
Allow: /a/b/
该指令的含义是不允许蜘蛛抓取a目录下的其他目录和文件,但是可以抓取a目录下的b目录中的内容。
4、$通配符,代表着以某个字符结尾的URL。
User-agent: *
Disallow: /.jpg$
此指令的含义是禁止所有搜索引擎抓取所有.jpg文件。
$指令在效果上有些地方和*是相同的,$指令常见于动态网址,互联网中应用不是特别广泛。
Disallow: /.jpg$ 等同于 Disallow: /*.jpg
5、Sitemap:告诉蜘蛛XML网站地图的位置,格式为:
Sitemap:http://你的域名/
主流的搜索引擎都会遵守robots文件指令,但是被robots文件禁止抓取的网址还会出现在搜索引擎结果中,这就好比你虽然不告诉我发生了什么事,但是我从别人那里知道了你的事情一样。只要禁止被抓取的网址在互联网中存在导入链接,搜索引擎就会知道这个网址的存在,有可能被搜索引擎收录,但是搜索结果标题下方会出现对应的提示:
由于该网站的tobots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容
你搜索一下在线制作
百度能解决你的问题
我也想知道,坐等大佬