看看大神是怎么说的
1、正常蜘蛛是抓取网页里面有通道的URL,如果并未在网页里加数据库地址,他也是不会抓取; 2、需判断下是否是真的蜘蛛; 3、抓取了,有无放出,无放出不影响。
大自然的蜘蛛我相信大家都看到过,它是通过网来进行爬取的。而搜索引擎的蜘蛛是通过链接来爬取的。蜘蛛在网页上爬取到一个链接就会把它放到一个单独的数据库。这些数据库都是有特性的,特性就是域名的后缀。 常用的后缀有.net、.org、.com、.cn、.等等。 蜘蛛会把这些域名后缀的链接放到一个数据库,然后逐个去爬取,这可能是很多站长朋友的一个误区。蜘蛛是不会像用户一样直接点击进入的,如果那样,那么这个蜘蛛就可以一直在外面不用回家了。因为每个网页都是有链接不断的循环的,爬不完的。
让更多人参与回答