爬虫抓取也有额度?
今天看到百度站长社区一位站长回答的帖子,原文如下:
抓取到收录的阶段【百度对每个站都有分配爬虫额度】
【1】--额度充分:抓取后,去重,判断页面质量度,以及根据页面指纹判断是否原创等---合格,在建立反索引,然后才放出排名排名中,即收录页面;
【2、】当爬虫额度不够,就仅仅放在爬虫队列中,还没有爬行,更别说收录了;
【3、】当爬虫额度够,但页面没有被索引,这就说明页面质量度不行了。如果是原创,那就适当加强相关内链;如果伪原创,争取丰富下内容增强质量;如果页面收录了突然有没有索引了,那问题又分为网站降权或者内容质量不行;
爬虫的额度是否够,一般要观察自己的蜘蛛日志做好记录,进而判断;
举个例子:sitemap提交了500个网址,但是有100个网址被收录了;查看蜘蛛日志,发现这500个网址中只爬行了300个;
那么:
#日志没有爬行的200个网址还在队列中,同时这个时候的蜘蛛额度是300左右;
#爬行了300个,但只收录了100个,那就找到那200个url: 1是提高内容的丰富度以及页面减少噪音因素,2是做内链以及外链;
蜘蛛爬虫还有额度的嘛?那如果是,是不是应该把网站内重点优化的文章url放在sitemap里面?不那么重要的就不放进去了
0 人参与回答
该问题还没有收到回答 :(