搜外网>搜外问答>问答页面

百度蜘蛛抓取是通过什么原理的？

微信

哪位大神能帮忙解答下，百度蜘蛛抓取网页是通过什么原理实现的？

网站收录百度蜘蛛（baiduspider）举报 本帖由用户发布，如有侵权联系删除 2019-10-11 发布1,501 次浏览

4 人参与回答

抓取爬行→提取过滤→建库索引→输出结果

stone

百度蜘蛛的构建的原理。搜索引擎构建一个调度程序，来调度百度蜘蛛的工作，让百度蜘蛛去和服务器建立连接下载网页，计算的过程都是通过调度来计算的，百度蜘蛛只是负责下载网页，目前的搜索引擎普遍使用广布式多服务器多线程的百度蜘蛛来达到多线程的目的。

生石花

下载你的网页分析代码啊，然后按百度的规则开始计算，没问题就入库索引。

收录宝