3 人参与回答
闲散人
闲散人 · 偶尔会有些金句产生

可以了,不是收录了五条吗。

解决新站不收录的问题,一定要先知道影响网站不收录的因素有哪些,从而找到具体影响不收录的问题,并解决它!

影响因素之爬虫的抓取:

先看一下爬虫每天到访你网站有多少次,然后抓取的那些页面是否能在一周内收录,如果抓取过的页面一直就没有收录说明抓取没问题,而问题在网页本身上。如果爬虫都不抓取,必然是抓取的问题。这时候增加一些站外的链接,引爬虫到访自己的网站,或提交百度的自动推送、主动推送、Sitemap,移动端的天级收录等,告知爬虫你的URL。

当然提交给搜索引擎URL,并不代表也会被抓取。搜索引擎的先抓哪个网页,后抓哪个网页是有一个抓取队列的,在这个队列中,你的URL排序是高是低也影响着是否会被抓取(解决这个问题需要针对内链做一些工作,比如每一个URL被网站内其他页面链接的次数,次数越多说明网页越重要,自然抓取的队列排序就越高)。

影响因素之网页的问题:

也抓取了,就是不收录,无疑是网页自身的问题,而网页这块问题又要拆分成:

  • 网页打开速度是不是很慢?
  • 网页内容质量是否过关?
  • 网页的整体内容爬虫是不是可识别的?

从网页速度上,可以针对服务器的配置、带宽进行优化,程序上的代码执行效率也会影响到打开速度。建议如果发现速度在1秒了,需要优化到几百毫秒上,如果一定要给一个值,我的建议是500毫秒(这里说的是网页打开速度,并不是服务器链接速度)。

从内容质量上,我这里给出几个点:

  1. 内容的原创度应该保证在85%,针对新站;
  2. 内容的可读性一定要强,说人话、语句通顺、读起来不啰嗦;
  3. 标题说的是什么,内容就写什么。挂羊头卖狗肉这事不能做;
  4. 针对字数上没有明确的要求,但为了更好的帮助你建议在600~800左右,这只是个参考值;

爬虫内容是否可识别,取决于你是否使用了JS加载内容、图片过多且没有alt,或alt声明不合理、以及falsh的使用等,这个可以通过百度搜索资源的站长工具,来进行抓取诊断,看爬虫拿到的是不是全部内容。

最后,链接的重要性

最开始有提到,一个网页被链接的次数越多搜索引擎就认为是重要的,且一定比例上会增加收录的概率。这里要从两个点说起。

1、当前网页被链接的数量

你希望收录的这个网页有多少次被链接,链接给这个网页的页面是不是已经收录了?有排名?如果没收录或没排名,你想一下搜索引擎怎么知道这个页面链接给你了呢?

2、链接到你网页的重要性

别人的首页,给了你一个链接,和别人的内页给了你一个链接,重要性的角度上也是完全不一样的。但又不可能有那么多重要网页给你某一个内页链接。所以这时候我们需要做的是通过交换友情链接来提升自己首页以及其他网页的重要性,从而合理做好内链结构的部署,以此来增加重要性的链接次数。

又重要、又多的链接指向你,内容没啥问题,爬虫也抓取了,速度也挺快的,爬虫也可以识别你的内容。那再不收录需要通过百度搜索资源平台进行一下站长反馈,告知你的情况。因为有的时候各家搜索引擎也会发生错误,这个是我亲身经历过的事情。

纯采集的把