robot怎么屏蔽所有不要抓取的网址

用户159126 · 专业的有问必答平台

用户204937 等 1 人赞同该回答

Robots你好好理解查一下吧，简单的问题

用户202000 · 医疗器械

用户204937 等 1 人赞同该回答

1、通过 Robots.txt 文件屏蔽

可以说 robots.txt 文件是最重要的一种渠道（能和搜索引擎建立直接对话），给出以下建议：

User-agent: Baiduspider

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: Googlebot-Mobile

Disallow: /

User-agent: Googlebot-Image

Disallow:/

User-agent: Mediapartners-Google

Disallow: /

User-agent: Adsbot-Google

Disallow: /

User-agent:Feedfetcher-Google

Disallow: /

User-agent: Yahoo! Slurp

Disallow: /

User-agent: Yahoo! Slurp China

Disallow: /

User-agent: Yahoo!-AdCrawler

Disallow: /

User-agent: YoudaoBot

Disallow: /

User-agent: Sosospider

Disallow: /

User-agent: Sogou spider

Disallow: /

User-agent: Sogou web spider

Disallow: /

User-agent: MSNBot

Disallow: /

User-agent: ia_archiver

Disallow: /

User-agent: Tomato Bot

Disallow: /

User-agent: *

Disallow: /

2、通过 meta tag 屏蔽

在所有的网页头部文件添加，添加如下语句：

3、通过服务器（如：linux/nginx ）配置文件设置

直接过滤 spider/robo

用户201019 · 个人博客

用户204937 等 1 人赞同该回答

这个简单
Robots.txt只是行业规则，搜索爬虫按照其指示爬取页面
但是并不是爬取不了页面，
robot.txt中禁止爬取指令:
User-agent: *

Disallow: /

解释:
此指令代表禁止所有的搜索引擎抓取网站的任何部分。此指令常用于站点不想被搜索引擎收录或者建站初期，当网站结构没有建设完成的时候，我们是不希望搜索引擎抓取网站任何内容的。

1、User-agent:

用于指定某个搜索引擎蜘蛛，如果使用通配符*代表所有的搜索引擎蜘蛛，如：

User-agent: Baiduspider指的是指定百度蜘蛛；

User-agent: Googlebot 指的是指定谷歌蜘蛛。

2、Disallow: /

代表着禁止抓取网站的某些内容，如“/”后面没有任何参数代表禁止抓取网站所有内容。我们来学习一下参数后面分别代表的含义：

Disallow: /admin/ 禁止抓取admin目录下的所有内容；

Disallow: /cgi-bin/*.htm 禁止抓取/cgi-bin目录下的所有以.htm结尾的文件；

Disallow: /? 禁止抓取网站中所有包含问号 (?) 的网址；

Disallow:/ab/ 禁止抓取ab文件夹下面的文件；

在这里重点强调一点，Disallow指令有一个比较特殊的地方，Disallow: /代表着禁止抓取，但是Disallow: 代表着允许抓取，如：

User-agent: *

Disallow:

此指令代表允许所有的搜索引擎抓取网站的任何内容。

3、Allow:/

该指令用于允许蜘蛛抓取某些文件。Allow:/指令后面的参数与Disallow指令相同，如：

User-agent: *

Disallow: /a/

Allow: /a/b/

该指令的含义是不允许蜘蛛抓取a目录下的其他目录和文件，但是可以抓取a目录下的b目录中的内容。

4、$通配符，代表着以某个字符结尾的URL。

User-agent: *

Disallow: /.jpg$

此指令的含义是禁止所有搜索引擎抓取所有.jpg文件。

$指令在效果上有些地方和*是相同的，$指令常见于动态网址，互联网中应用不是特别广泛。

Disallow: /.jpg$ 等同于 Disallow: /*.jpg

5、Sitemap:告诉蜘蛛XML网站地图的位置，格式为：

Sitemap:http://你的域名/
主流的搜索引擎都会遵守robots文件指令，但是被robots文件禁止抓取的网址还会出现在搜索引擎结果中，这就好比你虽然不告诉我发生了什么事，但是我从别人那里知道了你的事情一样。只要禁止被抓取的网址在互联网中存在导入链接，搜索引擎就会知道这个网址的存在，有可能被搜索引擎收录，但是搜索结果标题下方会出现对应的提示：

由于该网站的tobots.txt文件存在限制指令（限制搜索引擎抓取），系统无法提供该页面的内容

用户201991 · 免费ppt模板下载（搜：鲸鱼办公）

用户204937 等 1 人赞同该回答

你搜索一下在线制作

用户139178 · 聚乙烯醇缩丁醛-天元化工网-小小站长,兢兢业业！

用户204937 等 1 人赞同该回答

百度能解决你的问题

用户148663

用户204937 等 1 人赞同该回答

我也想知道，坐等大佬

robot怎么屏蔽所有不要抓取的网址

提供服务

常用链接

产品实验室

robot怎么屏蔽所有不要抓取的网址

收录宝

蜘蛛池

提供服务

常用链接

产品实验室