百度蜘蛛爬行但不收录的原因分析,迷惑了

20,631 次浏览

分析网站 www点mengyi100点com/

本人接手一个婚纱摄影网站,做百度SEO工作,最近发现一个现象,那就是百度有爬行,但是不收录,并且首页快照日期是2013年的,前提是文章都是原创,现在弄不清楚什么原因,希望有朋友可以分析什么原因,谢谢!





24小时内收录,没有首页,也没有最新更新内容。





5月8号百度爬行日志显示已经有抓取





百度站长平台显示索引量也没有增加

目前百度日蜘蛛抓取次数为150-200左右,百度压力反馈为40-80左右,这个数值对于小企业站来说不是非常低的,这里就搞不懂原因了。

猜测一 友链比较少,抓取蜘蛛有质量区分?

猜测二 网站内容之前基本是网络采集,网站已经被认定为垃圾站?

猜测三 URL新做伪静态的影响,但是已经有部分静态URL的收录快照

猜测四 title和首页改动的后续影响

实在是不能确定什么原因了,希望有大神可以分析下,指导看看应该如何破解呢?
追加问题
    7 人参与回答
谭剑洪
谭剑洪 · 喜欢就微我“洪眉庄主”——微信:SEM963
崔海雷无天 等 2 人赞同该回答

其他不说,就针对蜘蛛日志说一下:你的蜘蛛IP基本都是123.125.71.*

而123.125.71.* 百度蜘蛛IP代表:

爬过此段的内页文章暂时被收录但不放出来(意思也就是说待定),因不是原创或采集文章(页面不够丰满)。

知一
知一 · 我只是一个SEO菜鸟
崔海雷 等 1 人赞同该回答

兄弟。别做广告。
1.你接手有多久了?
2. 你改动标题肯定是有一段时间影响
3. 之前给百度的印象,没那么容易消除
4. 试试发一些新闻源能不能加快收录

丁健
丁健 · 苦逼小站长-健哥哥
崔海雷 等 1 人赞同该回答

由于页面含有过多的时间戳,导致快照时间出错!
1、首页的快照时间显示的是2013-10-11,然而查看快照文件,却能看到5月7日的最新文章。
2、http://www.mengyi100.com/news_detail_364_34_1.html
2014年的文章,快照显示的是2013年的

2013年12月份好像网站就很少更新了(2013年12月前更新频繁),这就给蜘蛛一个信号,该网站更新少了,可以减少蜘蛛来爬取这个网站。

如今网站是在5月份开始正常更新,也才几天的时间,搜索引擎需要一个适应的过程。

所以,还是那句说的快烂了的话,
保持更新
吸引入口
分享

顺便修改一下时间戳。
手贱了,点了邀请链接 -.- 继续工作去

胡鹏吉
胡鹏吉 · 优化狗,程序汪
崔海雷 等 1 人赞同该回答

只问一个问题,爬行到收录,等了多少天?

你应该计算下你的更新频率和你后台索引时间的比值
进行“对照”,每次索引都隔着7天,你更新频率又不够,这样让它马上索引时间间隔变成一天,2天基本上是不可能的,加大更新频率索引也会变快。

还有那24小时收录是第三方工具查的,这个只是第三方工具的一个记录今日收录的查询系统,很不准的,数据会延迟会回档,并不是你今日的收录。

百度查当天收录,Site:你的域名 2014-xxmonth-xxday.

龚堃
龚堃 · 站长
崔海雷 等 1 人赞同该回答

不同蜘蛛ip来到,代表的意思不一样。以蜘蛛的ip(123.125.71.*)来看,文章可以判定为低质量,暂时不会放出来。
关于快照时间问题,楼上已说,跟时间戳有关系。

孙江
孙江 · 江苏琳琅玻璃制品 SEO工程师

看来了楼上兄弟们的评论,真是受益匪浅啊,看来文章的质量,用户体验才是收录与否的保障,我最近也是烦恼,内页收录的很好,但首页快照老是不更新,也不知道是啥原因。

网站想要达到一个好的状态,就需要搜索引擎对网站进行爬行,然后进行收录,有了收录之后,网站才会有一个好的排名。对于网站优化来说一般都要经历这几个过程。但是有的时候网站只是被搜索引擎蜘蛛爬行但是没有收录怎么办呢?
下面就来看看搜索引擎对网站进行抓取排名的一个过程。
第一阶段:大小通吃
搜索引擎蜘蛛过来抓取时,就需要对网站的URL进行一个统一的抓取,也就是站长常说的“大小通吃”的情况。搜索引擎蜘蛛对网页中出现地链接,都会逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来。这对于很多的站点来说,是比较好的情况。搜索引擎蜘蛛过来抓取时,站长可以通过网站日志有一个清楚的记录。站长可以通过网站日志分析网站优化的基本情况,这仅仅是第一阶段。
第二阶段:网页评级
搜索引擎蜘蛛对网站的页面进行抓取以后,就需要对网站的页面进行评级。PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序。搜索引擎蜘蛛抓取页面后,会对网站的页面进行下载。但PageRank是个全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。
第三阶段:OCIP策略
OPIC策略严格的说是PR值算法的改进,这种得法对一些中小网站来说,是比较公平的方式之一。因为在算法开始之前,搜索引擎给每一个页面一定的权重,每当下载某个页面A后,A将自己的权重平均分给页面中包含的链接页面,最后自己的权重全部分配完全。这就是为什么导出的链接越少,权重会越高的原因之一。OCIP大致与PageRank思路一致,区别在于:PageRank每次要迭代计算,而OCIP则不需要,所以计算速度远远快于PageRank,适合实时计算使用。
知道了上面的一些蜘蛛抓取收录的情况之后,当网站页面迟迟没有被收录,就就需要对后面的两点进行分析。看看是什么原因导致搜索引擎对网站的页面视而不见。这时分析出原因后,就需要对网站做出调整。通达网站日志对网站的情况有一个大致的了解,及时调整网站优化的方案。