迁迁SEO超神之路_第十一天_ROBOTS

宋迁
宋迁

发布于 2016-11-30 11:39

28 浏览
0 评论

迁迁SEO超神之路_第十一天_ROBOTS

什么是Robots协议?
ROBOTS协议(也称为爬虫协议、机器人协议等)的全称是网络爬虫排除标准(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,更好的保护用户的隐私和版权信息。(简单说呢就是你从我家(网站)来,首先要有一个规则,哪里可以让你去看,哪里你不能去看,这个规则就叫ROBOTS协议。)

Robot是什么?
Robot英文直译是机器人,在搜索引擎优化SEO中,我们经常翻译为:探测器。有时,你会碰到crawler(爬行器),spider(蜘蛛),都是探测器之一,只是叫法不同

ROBOTS协议
ROBOTS协议

Robots事件淘宝封杀 2008年9月8日,淘宝网宣布封杀百度爬虫,百度忍痛遵守爬虫协议。因为一旦破坏协议,用户的隐私和利益就无法得到保障,搜索网站就谈不到人性关怀。

ROBOTS协议
ROBOTS

Robots.txt文件放在哪里? robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(如 http://www.baidu.com)时,首先会检查该网站中是否存在http://www.baidu.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件内容,来确定它访问权限范围。
ww.taobao.com/robots.txt
www.w3.org/robots.txt
http://www.net.cn/robots.txt
http://www.ganji.com/robots.txt
http://www.jd.com/robots.txt

Robots文件写法 格式: User-agent: 蜘蛛名称 Disallow: 内容名称 Allow:内容名称
参数说明: User-agent 指定搜索引擎蜘蛛名称; Disallow要禁止抓取的内容; Allow允许抓取的内容

Robot名称
SEO中常说的探测器(Robot)是搜索引擎用来抓取网页的工具,它是一个软件或者说一系列自动程序。不同的搜索引擎给他们自己的探测器(Robot)起不同的名字。
谷歌:googlebot
百度:baiduspider
MSN:MSNbot
雅虎:Slurp
有道:YoudaoBot
搜搜:Sosospider
搜狗:sogou spider
360:360Spider
alexa:ia_archiver

ROBOTS通配符说明:
*表示所有搜索引擎,用于指定蜘蛛使用。
~表示以某字符串开头
$表示以某字符串结尾
/表示当前目录下的所有内容

Robots文件写法参考
指定蜘蛛
User-agent: * 这里的代表的所有的搜索引擎种类,是一个通配符
禁止写法
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /admin 这里定义是禁止爬寻admin目录
Disallow: /cgi-bin/.htm 禁止访问/cgi-bin/目录下所有以“.htm”为后缀URL(包含子目录)
Disallow: /
?* 禁止访问网站中所有包含问号(?)的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
允许写法
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
详细写法可参考文件:robots文件示例

(总结ROBOTS协议是必须有的 一般 协议里必须写的内容:sitemap, 优先想让蜘蛛爬行的目录或文件,不想让蜘蛛爬行的死链,死链可通过网站日志分析)

举报 收藏
管理文章:
暂无回应