Robots

Robots

中文称:爬虫协议。简单说,robots.txt文件用于告诉搜索引擎哪些页面不被开放、禁止抓取。大多数搜索引擎公司都会自觉遵守该协议内容,一方面可以保护用户隐私数据,另一方面也可以通过此协议控制爬虫抓取范围,从事减少网站带宽。
相关话题
夫唯
话题优秀回答者
1311 问题
545 浏览

robots.txt概念和10条注意事项 Robots Site PHP

robots.txt概念如果我们网站内有某些特殊的文件不让搜索引擎收录,那怎么办?答案是:使用一个叫做robots.txt的文件。robots.txt文件告诉搜索引擎本网站哪些文件是允许搜索引擎蜘蛛抓取,哪些不允许抓取。搜索引擎蜘蛛访问网站……

645 浏览

网站改版原来收录的URL怎么办? Robots 404 6系统 索引

网站改版有多种情况,有一种情况是:网站域名不变、网站系统要完全更换,内容继续在新系统使用。如果这个网站已存在一定时间,已有较多收录量,那么原来收录的那些URL该怎么办呢?有两个办法来解决:1、在新系统或新服务器上,增加一项功能,把老的已收录……

515 浏览

网站改版原来收录的URL怎么办? Robots 404 6系统 索引

网站改版有多种情况,有一种情况是:网站域名不变、网站系统要完全更换,内容继续在新系统使用。如果这个网站已存在一定时间,已有较多收录量,那么原来收录的那些URL该怎么办呢?有两个办法来解决:1、在新系统或新服务器上,增加一项功能,把老的已收录……

523 浏览

网站索引量持续下降,怎么分析原因? Robots Site 404 排名

<p>当我们提到索引量时,尽量以百度搜索资源平台的索引量为准,而不是百度上直接“site”,site不太准确。<br></p><p>当遇到网站索引量连续多天下降的情况(如下图),该如何分析原因……

464 浏览

蜘蛛一直抓取之前未改版前的链接,造成一大堆死链,要如何处理 数据库 Robots WordPress 代码

<p>网站改版快一年了,之前是用WordPress建站,后面代码给改了,是去年3月份改版的,到现在已经快一年了,从站点日志里面看到蜘蛛一直在抓取旧站链接,也有整理过一大堆死链提交了,也在robots里面禁止蜘蛛爬行,但是蜘蛛还是……

467 浏览

关于采集内容,这样的处理方式。大家觉得是否可行呢? Robots 搜索结果 文章

所有采集页不传递权重,robots屏蔽,采集大概几十万篇文章后像制作专题一样的 生成搜索结果的html页面?这样的话内容相当于是很多段描述拼凑在一起的 内容应该非常原创了吧。。。实验过一次,不这样的话采集页面对于垃圾站也来不了什么流量吧。。……

448 浏览

请问网站地图支持放到站外么 Robots 百度收录 二级域名 索引

入职一家公司不久,网站结构非常混乱,很多重复链接,他们还把重复的链接放到了网站地图里,百度收录的乱七八糟,各种链接。网站是外包给网络公司的,网络公司是个分公司,没技术处理真正的技术问题。处理个301他们都不会,还要我查了手册写好文件发给他们……

400 浏览

关于网站分页链接的处理,大家一般是怎么解决? Robots

比如网站域名/page/2  分页我觉得无意义,那么我用robots屏蔽带page的页面,那么我之前的收录的page对网站有什么影响,而且这些页面是不能删除的,只是以后更新的page页面不在抓取.请各位大神指教!……

390 浏览

robots.txt中可以屏蔽中文url吗? 中文URL Robots

请问下各位,robots.txt,中如何屏蔽中文url,一个目录下,有英文url和中文url,xxx.com/xxx/吃饭/xxx.com/xxx/手机/xxx.com/xxx/abc/如何把其中的中文url在robots.txt中屏蔽呢?……

483 浏览

请问,如何设置网站robots文件? Robots

问题如下:    例如有网站www.abc.com,有www.abc.com/news?_bd=225 和www.abc.com/news两个链接,我想让蜘蛛抓取www.abc.com/news里面的内容,而不想让蜘蛛抓取www.abc.c……

538 浏览

如何将一个网页的状态码设为404 Robots 宝塔 404

<p>某网站存在一些非主动生成的动态链接空白页面(状态码为200)总是被蜘蛛抓取,比如如图中链接类型,做了robots屏蔽还是没用,就想把这页面改成404识别让蜘蛛别来抓取了,怎么设置(tp程序,宝塔后台服务器管理)</p……

311 浏览

正常网站用百度资源Robots监测提示404怎么办? Robots 404

<p>网站访问没问题,而且用百度资源“抓取诊断”也正常。</p><p>但是,百度资源“Robots”监测提示:您的服务器配置有误,百度暂时无法连接您的服务器,请检查服务器的设置,确保您网站的服务器能被正常……