搜外网>搜外问答>问答页面

百度蜘蛛的抓取原理是什么？

微信

百度蜘蛛抓取原理是什么，是怎么爬取网站得，怎么抓取内容呢？

百度蜘蛛

本帖由用户发布，如有侵权联系删除 2020-04-20 发布1,280 次浏览

交换友情链接，就用搜外友链，方便！

7 人参与回答

用户153190 · 精益生产管理与六西格玛管理咨询，培训机构

用户48767、用户196011 等 2 人赞同该回答

　（1）通过百度蜘蛛下载回来的网页放到补充数据区，通过各种程序计算过后才放到检索区，才会形成稳定的排名，所以说只要下载回来的东西都可以通过指令找到，补充数据是不稳定的，有可能在各种计算的过程中给k掉，检索区的数据排名是相对比较稳定的，百度目前是缓存机制和补充数据相结合的，正在向补充数据转变，这也是目前百度收录困难的原因，也是很多站点今天给k了明天又放出来的原因。

　　（2）深度优先和权重优先，百度蜘蛛抓页面的时候从起始站点（即种子站点指的是一些门户站点）是广度优先抓取是为了抓取更多的网址，深度优先抓取的目的是为了抓取高质量的网页，这个策略是由调度来计算和分配的，百度蜘蛛只负责抓取，权重优先是指反向连接较多的页面的优先抓取，这也是调度的一种策略，一般情况下网页抓取抓到40%是正常范围，60%算很好，100%是不可能的，当然抓取的越多越好。

用户61571

用户196011 等 1 人赞同该回答

这个具体没有研究过，得等大神来解答

用户148249 · 行星减速机

用户196011 等 1 人赞同该回答

没研究过这个

用户170795

抓取吧

用户112001 · 器物有魂

这个具体没有研究过

用户168067 · 扬州米时玩具礼品有限公司，一站式的毛绒礼品定制供应商

不知道呢

百度蜘蛛的抓取原理是什么？

提供服务

常用链接

产品实验室

百度蜘蛛的抓取原理是什么？

收录宝

蜘蛛池

提供服务

常用链接

产品实验室