Robots

Robots

中文称:爬虫协议。简单说,robots.txt文件用于告诉搜索引擎哪些页面不被开放、禁止抓取。大多数搜索引擎公司都会自觉遵守该协议内容,一方面可以保护用户隐私数据,另一方面也可以通过此协议控制爬虫抓取范围,从事减少网站带宽。
相关话题
夫唯
话题优秀回答者
1314 问题
565 浏览

百度蜘蛛就只抓robots咋回事? Robots 百度蜘蛛

<p>每天来一下,就抓下主页,抓几下robots,就收录了主页,内页没收,每天就对着robots一顿抓,是协议写的有问</p><p>题吗,大佬帮忙给看看</p>……

656 浏览

网站快速收录的方法 Robots 搜狗 Site B2B

1,做好robots文件,2,做好sitemap文件,3,每天api提交,手动提交,每天多提交几篇,4,抓取诊断,5,交换友情链接,6,购买高权重友情链接,7,蜘蛛池没多大用,别花这个韭菜钱。8,在分类目录网站,b2b平台发布锚文本链接,9……

672 浏览

蜘蛛抓取日期目录,导致大量403,该如何处理? Robots URL结构

内容生成URL结构包含日期目录:/20150513/id.html,目录不能访问,报403,网站无入口,但是日志中发现蜘蛛大量抓取日期目录,这种情况要如何处理,无法使用robots,只能不断提交死链?谢谢!220.181.108.94 - ……

545 浏览

网站有大量404 页面 已经提交了百度死链 看着百度反馈成功了,robots 文件是否还有屏蔽的必要 Robots 404

网站有大量404 页面 已经提交了百度死链 看着百度反馈成功了,robots 文件是否还有屏蔽的必要,现在看蜘蛛每天还在爬 404 页面,到底要不要做robots 屏蔽呢,屏蔽的话 对蜘蛛有没有影响。如果屏蔽的话,几千的404 也会导致ro……

467 浏览

百度Robots检测失败 Robots

这个检测失败,然后抓取是正常的,另外在其它网站Robots这里检测也是正常。检测失败提示:您的服务器配置有误百度暂时无法连接您的服务器,请检查服务器的设置,确保您网站的服务器能被正常访问。错误码:500……

528 浏览

如何让百度快速抓取内页 Robots Site Sitemap 百度蜘蛛

今天看了百度日志,百度蜘蛛有200多个抓取网站,但是主要主要抓取robots和sitemap文件,像产品内页和新闻内部都不抓取。这是怎么回事?有没有大神指点一下。www.snow-china.com……

697 浏览

我的网站是不是处问题了,那么多404页面怎么处理? Robots 404页面 404

<p>FTP后台上根本没有这样的文本,但是日志上每天都能查到那么多的404链接,robots文本也做了屏蔽了还是没有用这是什么情况,还要最后的汇总为什么只有404个,有知道怎么处理的吗,麻烦解释一下,谢谢!www.zhboyan……

696 浏览

【推广站改优化站】各位大佬能帮我看看改版后的网站有什么问题吗? Robots canonical 跳转 文章

我有几个疑问如下:1、网站改版后原来的推广页,是否需要转移到新解析的二级域名去,还是继续用原来的二级目录,推广页上的广告弹窗会不会影响到优化,百度好像对广告弹窗打击得比较严。2、网站的移动端是独立站,域名是带m的,但是页面被PC端收录了,而……

445 浏览

到底哪些是不想被抓取的页面,都有哪些呢? Robots 索引

robots屏蔽问题我一直不解,可能是因为我不会设置robots.txt文件的原因。其他人都说可以用robots去屏蔽不想被搜索引擎抓取的页面,但我很迷糊,到底哪些是不想被抓取的页面,都有哪些呢?求告知,我也希望自己能够提升这块的操作能力。……