关于蜘蛛和url的十个问题,(希望有经验的人士过来看下) 悬赏18元 已结束
1,网站在一个论坛留下外链,如果百度蜘蛛通过这个外链访问到我的网站,
我的网站有谷歌统计的话,那么谷歌统计的蜘蛛来路是www.baidu.com,还是这个外链所在论坛的来路?
2,如果百度蜘蛛通过论坛的外链,然后访问到我的网站,那么,百度蜘蛛名称,baiduspider是否发生改变?
3,如果有访客通过这个外链访问到我的网站,那么,应该怎么区分蜘蛛和访客呢?根据蜘蛛名称,还是ua呢?
4,一个页面有两个url,一个是伪静态的url,另一个是那种带有多个?的动态url,
是不是两个url,蜘蛛都会抓取到?
5,这两个url,只想让蜘蛛抓取一个,怎么办最有效,能不能在vps上设置?因为我觉得服务器设置应该比robots.txt之类的文本文档更有效,毕竟有的蜘蛛不遵循robots规则,不知道这样说,对不对?
6,我知道蜘蛛在抓取网页的时候,会模拟很多浏览器,这个很多浏览器是什么意思呢,比如谷歌蜘蛛抓取,难道会模拟qq浏览器?或者,谷歌蜘蛛模拟的浏览器主要是ie和chrome?
7,另外,蜘蛛不仅会模拟浏览器,也会模拟来路,我网站日志谷歌来路都是google.com/googlebot之类,那这里模拟来路,是什么意思呢?难道会模拟facebook,twitter之类来路?他是不是也是主要模拟谷歌搜索来路?
8,如果一个url,有两个页面,页面a,和页面b,如何让蜘蛛只能抓取页面a的内容?我看网上有判定跳转之类,就是针对蜘蛛,跳转到a页面之类的设置。
但是,我觉得这个判定跳转有个前提,就是得判定真正的蜘蛛, 正如6,7所说,蜘蛛会模拟各种浏览器和来路,那怎么判定真正的蜘蛛呢?根据名称,来路,ua?
9,如果动态url:
www.abc.com/index.php代表页面1
www.abc.com/index.php?id=15代表页面2
如果对页面2的 ?id=15 进行加密,变成了
www.abc.com/index.php(加密参数)
那么,
蜘蛛如果过来抓取 www.abc.com/index.php(加密参数)这个url,
最后显示的是页面2<说明蜘蛛可以解析加密>,还是显示页面1<说明蜘蛛不能解析加密,所以,虽然抓取 www.abc.com/index.php(加密参数)这个url,但实际显示的却是页面1的内容 >?
————
10,在vps用lamp搭建了一个网站,www.abc.com ,现在想禁止蜘蛛抓取收录www.abc.com,以及www.abc.com的包括的所有文件,应该怎么设置?除了robots.txt之外,能不能在lamp上怎么设置?
常州SEO解答:
第一个:论坛 原因:谷歌统计和蜘蛛没有直接关系,想看蜘蛛建议看日志
第二个:不会 原因:建议了解一下蜘蛛的概念,这个不好解释
第三个:访客是访客,不是蜘蛛,看第二条,还是建议先了解百度蜘蛛这个概念,有访客会带来ip、PV等,但不是蜘蛛,反正不是一个概念
第四个:2个都会抓到,原因:静态会抓取索引收录,动态的也会抓取,很可能2个都是收录,甚至2个都有排名出现(概率不高,毕竟一样的)
第五个:方法是不要在网站任何地方出现动态链接,且设置Robots 原因:robots设置并不一定有用,我以前有回复过一个类似问题,你可以找下,不仅仅是搜索引擎不遵守robots,你任何地方出现链接也可能导致抓取到
第六个:应该可以模拟,但是不会去模拟 原因:对于搜索引擎来说有什么意义吗?
第七个:应该是一些软件或工具来模拟百度蜘蛛等来源,不是蜘蛛模拟谁
第八个:可以做301跳转、b页面完全不在网站链接中显示、这个页面直接在头部加禁止索引的代码 noindex
第九个:看你具体怎么写的了,一般加密的解析不了,如果是第一种,直接显示和抓取到的都是第一种链接
第十个:只有robots.txt设置,其他的都不行,参考对象“淘宝”,而且就算是robots设置了,你也要在站内每个页面进行设置,且在百度站长工具设置禁止外链,写法 User-Agent: * Disallow:*
上面写了一堆,实际上主要还是和蜘蛛以及爬行、抓取、索引、收录有关,建议这方面的资料多看下。
另外建议加下微信,比较喜欢和这方面有思考的人多交流,共同进步。
不会