搜外网>搜外问答>问答页面

robots.txt 写法 求助 悬赏3元 已结束

<p>User-agent: *
</p><p>Disallow:
</p><p>Disallow: /extend
</p><p>Disallow: /install_*
</p><p>Disallow: /template
</p><p>Disallow: /core
</p><p>Disallow: /vendor
</p><p>Disallow: /application</p><p><br></p><p>这个有没有毛病.....</p><p><br></p><p>这里是不是禁止了所有.................求指教</p>

追加问题
    21 人参与回答
润羽优选
润羽优选 · 优选问答网 https://ask.uguu.com/
优选 等 1 人赞同该回答

其实最好不要写,除非你是特殊行业,不然多少会有影响,真的,参考我的网站

海★蓝
海★蓝 · 知我者何必言多,不知我者何必多言!
- 等 1 人赞同该回答

<p><b>以前整理了个模板:不知道有没用,自己参考呗!</b></p><p>  Robots.txt的相关写法</p><p>  User-agent:  这里的代表的所有的搜索引擎种类,是一个通配符</p><p>    Disallow: / 这里定义是禁止爬寻目录下面的全部文件</p><p>  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录</p><p>  Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录</p><p>  Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录</p><p>  Disallow: /cgi-bin/.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。</p><p>  Disallow: /? 禁止访问网站中所有包含问号 (?) 的网址</p><p>  Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片</p><p>  Disallow:/ab/ 禁止爬取ab文件夹下面的文件。</p><p>  Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录</p><p>  Allow: /tmp 这里定义是允许爬寻tmp的整个目录</p><p>  Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。</p><p>  Allow: .gif$ 允许抓取网页和gif格式图片</p><p>  Sitemap: 网站地图 告诉爬虫这个页面是网站地图</p><p><br></p><p><b>广州买房留意网 的robots.txt  就是这样的</b></p><pre>User-Agent: *
Disallow:/
?*
Disallow:/wp-includes/
Disallow:/wp-admin/
Disallow:/.PHP
Disallow:/Disallow:/htdocs/wp-content/themes/wp-training/css/
Disallow:/htdocs/wp-content/themes/wp-training/Disallow:/htdocs/wp-content/themes/wp-training/JS/
Disallow:/htdocs/wp-content/themes/wp-training/css
Disallow:/htdocs/wp-content/themes/wp-training/languages
Disallow:/htdocs/wp-content/themes/wp-training/plugins
Disallow:/htdocs/wp-content/themes/wp-training/upgrade
Disallow:/


Sitemap files

Sitemap: Sitemap: Sitemap: >
幽谷客
幽谷客 · 主业seo,业余python编程,微信公众号「Python加SEO做增长」,运营自然搜索流量日uv4万网站

百度站长平台都有诊断Robots文件的功能,想看写法对不对,去那里诊断下就一清二楚了。

来扯bie吗
来扯bie · 建筑人才招聘就上筑聘网

就是和平常说话一样,你允许抓取哪些文件或目录就直接把路径放上去,不允许抓取哪些就放哪些路径。然后*表示通配符。

PS
PS · Google SEO专家-Shuke.→SEO服务咨询微信:15877060841

你这个要按照蜘蛛协议规则写才可以啊

Robots生成器弄一个就好  ,没那么复杂

Robots格式如下:

  1. User-agent: * 针对定义搜索引擎类型,*代表对所有搜索引擎蜘蛛,如需指定对哪些爬虫有效(百度蜘蛛:BaiduSpider 谷歌蜘蛛:Googlebot 360蜘蛛:360Spider 搜狗蜘蛛:Sogou Spider 所有蜘蛛:*),需另写明。
  1. Disallow: / →即禁止抓取的地址。
  1. Allow: / →即允许抓取的地址。
  1. “*”和”$” 分别代表通配符和终止符,百度蜘蛛一般用这两个通配符来模糊匹配url。”*”是匹配0或多个以上的的任意字符,”$”是匹配行的结束符。

写法规则,“:”的使用要是英文下的符号,写法后面留一空格,如下举例。

屏蔽整个网站,使用正斜线:

  1. User-agent: *
  2. Disallow: /

要屏蔽某一目录以及其中的所有内容,在目录名后添加正斜线:

  1. User-agent: *
  2. Disallow: /目录名/

要屏蔽某个具体的网页,就指出这个网页:

  1. User-agent: *
  2. Disallow: /网页.htm

要屏蔽网站上的动态链接

  1. User-agent: *
  2. Disallow: /*?*

要屏蔽网站上的css、JS文件:

  1. User-agent: *
  2. Disallow: /*.js$
  3. Disallow: /*.css$

要屏蔽网站上的图片:

  1. User-agent: *
  2. Disallow: *.jpg$
  3. Disallow: *.png$
  4. Disallow: *.gif$

要屏蔽网站上的文件包:

  1. User-agent: *
  2. Disallow: /*.zip

可以去百度统计里面还是站长里面的Robots检测的判断一下看看

best
best · 朗速erp

你这样就可以了   

你可以去百度站长平台,那边有工具可以检测你写的合不合规  都有说明的

我这边一般是这样写,针对不同的站细节地方再修改,我也不是很懂这个,所以每次添加了Robots文件之后我会去资源管理平台查看一下看有没有提示错误,并把网站的一些链接放进去试一下看有没有被禁止抓取

# Robots.txt file from http://域名

# All robots will spider the domain

User-agent: Baiduspider

User-agent: *

Disallow: /admin/ (禁止爬去后台)

Disallow: /upload/ (禁止爬去upload文件夹)

Disallow: /en/ (禁止爬去en文件夹)

Disallow: /cn/ (禁止爬去cn文件夹)

Disallow: /*?* (禁止爬去动态链接,针对全站静态化的站)

Disallow: /*.PHP (禁止爬去.php结尾的动态链接,针对全站静态化的站)

Disallow: /*.css (禁止爬去样式文件)

Disallow: /cn/ (禁止爬去首页动态链接)

Allow: / 除了禁止的,其他都可以爬去

Sitemap:http://域名/

(有无Sitemap 有就加)

了解的片面,现在学到了,厉害厉害

禁止百度抓取

User-agent: Baiduspider

Disallow: / 

禁止所有搜索引擎抓取

User-agent: *

Disallow: /

CMSWordPress等不同后台限制抓取的路径不同,区别对待哈

新起点影视
新起点影视 · 深圳宣传片拍摄、后期制作,宣传片制作

删了

路人
路人 · seo小学生

你这样写已经是对的啊,你想知道写的对不对,去百度统计里面还是站长里面有一个Robots检测的

加载更多