搜外网>搜外问答>问答页面

求大神解答:百度蜘蛛爬取了大量不存在的404页面怎么回事?

<p><b>网站昨天突然不收录了,之前文章都是秒收。</b></p><p><br></p><p>检查了下日志,发现蜘蛛爬取了大量404页面,分析了下这些404页面,发现这些页面的文章id都是采集数据库里的</p><p><br></p><p><b>比如上面这个蓝底页面id是66886,这个id的资讯根本没有生成过静态,是调取数据库里的采集文章的信息形成的动态页面</b></p><p><br></p><p>那么问题来了,百度蜘蛛到底是怎么爬取到这个id的,还自动给这个id加上了目录/c/2018061166886(20180611是采集日期),这些文章在采集栏目修改发布后,会在采集栏目消失,出现在资讯文章栏目发布出去。</p><p>我想着是不是蜘蛛爬到了后台管理界面,现在把后台给禁抓取了,在后台首页加了个禁止抓取的代码</p><p><br></p><p>明天再看看日志,目前网站收录3万5千,蜘蛛这样抓出来的死链接有快4万(数据库的4万篇采集文章)难不成蜘蛛爬了我的数据库?</p><p>明天如果还是这么多死链接,我就把这4万个链接全写在robots.txt里面,然后一次性给百度站长平台提交4万个死链接吗?</p>

追加问题
    4 人参与回答

是不是什么缓存文件或者什么文件里面包含了这些url?

大李先生
大李先生 · ✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈㊣伸出发财的小手帮我点一下=。=

我也纠结了,我返回代码200的正常页面不抓取,蜘蛛总是抓我网站程序文件,还N多404,什么鬼,我都愁死了,借你楼,做等大神帮忙

一梦红尘
一梦红尘 · 社区网站-香港移民!

Robots限制爬行这些页面

我也是有这个问题,404爬了一千多次,求同问