搜外网>搜外问答>问答页面

关于蜘蛛和url的十个问题,(希望有经验的人士过来看下) 悬赏18元 已结束

1,网站在一个论坛留下外链,如果百度蜘蛛通过这个外链访问到我的网站,

我的网站有谷歌统计的话,那么谷歌统计的蜘蛛来路是www.baidu.com,还是这个外链所在论坛的来路?

2,如果百度蜘蛛通过论坛的外链,然后访问到我的网站,那么,百度蜘蛛名称,baiduspider是否发生改变?

3,如果有访客通过这个外链访问到我的网站,那么,应该怎么区分蜘蛛和访客呢?根据蜘蛛名称,还是ua呢?

4,一个页面有两个url,一个是伪静态的url,另一个是那种带有多个?的动态url,

是不是两个url,蜘蛛都会抓取到?

5,这两个url,只想让蜘蛛抓取一个,怎么办最有效,能不能在vps上设置?因为我觉得服务器设置应该比robots.txt之类的文本文档更有效,毕竟有的蜘蛛不遵循robots规则,不知道这样说,对不对?

6,我知道蜘蛛在抓取网页的时候,会模拟很多浏览器,这个很多浏览器是什么意思呢,比如谷歌蜘蛛抓取,难道会模拟qq浏览器?或者,谷歌蜘蛛模拟的浏览器主要是ie和chrome?

7,另外,蜘蛛不仅会模拟浏览器,也会模拟来路,我网站日志谷歌来路都是google.com/googlebot之类,那这里模拟来路,是什么意思呢?难道会模拟facebook,twitter之类来路?他是不是也是主要模拟谷歌搜索来路?

8,如果一个url,有两个页面,页面a,和页面b,如何让蜘蛛只能抓取页面a的内容?我看网上有判定跳转之类,就是针对蜘蛛,跳转到a页面之类的设置。

但是,我觉得这个判定跳转有个前提,就是得判定真正的蜘蛛, 正如6,7所说,蜘蛛会模拟各种浏览器和来路,那怎么判定真正的蜘蛛呢?根据名称,来路,ua?

9,如果动态url:

www.abc.com/index.php代表页面1

www.abc.com/index.php?id=15代表页面2

如果对页面2的 ?id=15 进行加密,变成了

www.abc.com/index.php(加密参数)

那么,

蜘蛛如果过来抓取 www.abc.com/index.php(加密参数)这个url,

最后显示的是页面2<说明蜘蛛可以解析加密>,还是显示页面1<说明蜘蛛不能解析加密,所以,虽然抓取 www.abc.com/index.php(加密参数)这个url,但实际显示的却是页面1的内容 >?

————

10,在vps用lamp搭建了一个网站,www.abc.com  ,现在想禁止蜘蛛抓取收录www.abc.com,以及www.abc.com的包括的所有文件,应该怎么设置?除了robots.txt之外,能不能在lamp上怎么设置?

追加问题
    7 人参与回答
最佳回答
尹传杰 等 1 人赞同该回答

常州SEO解答:

第一个:论坛  原因:谷歌统计和蜘蛛没有直接关系,想看蜘蛛建议看日志

第二个:不会  原因:建议了解一下蜘蛛的概念,这个不好解释

第三个:访客是访客,不是蜘蛛,看第二条,还是建议先了解百度蜘蛛这个概念,有访客会带来ip、PV等,但不是蜘蛛,反正不是一个概念

第四个:2个都会抓到,原因:静态会抓取索引收录,动态的也会抓取,很可能2个都是收录,甚至2个都有排名出现(概率不高,毕竟一样的)

第五个:方法是不要在网站任何地方出现动态链接,且设置Robots  原因:robots设置并不一定有用,我以前有回复过一个类似问题,你可以找下,不仅仅是搜索引擎不遵守robots,你任何地方出现链接也可能导致抓取到

第六个:应该可以模拟,但是不会去模拟  原因:对于搜索引擎来说有什么意义吗?

第七个:应该是一些软件或工具来模拟百度蜘蛛等来源,不是蜘蛛模拟谁

第八个:可以做301跳转、b页面完全不在网站链接中显示、这个页面直接在头部加禁止索引的代码 noindex

第九个:看你具体怎么写的了,一般加密的解析不了,如果是第一种,直接显示和抓取到的都是第一种链接

第十个:只有robots.txt设置,其他的都不行,参考对象“淘宝”,而且就算是robots设置了,你也要在站内每个页面进行设置,且在百度站长工具设置禁止外链,写法 User-Agent: * Disallow:*

上面写了一堆,实际上主要还是和蜘蛛以及爬行、抓取、索引、收录有关,建议这方面的资料多看下。

另外建议加下微信,比较喜欢和这方面有思考的人多交流,共同进步。

1.论坛。

2.不会。

4和5一类问题.平台提交改版规则,然后301过去。Robots屏蔽“?”类的动态地址,服务器上的能不动尽量不动。并且静态比动态更易抓取。

6.不知道。

7.模拟你的外链来源,跟蜘蛛池一个原理引导蜘蛛爬取。

8.跟3一样的。

9.显示页面1,但不能说明蜘蛛不能解析加密。

10.相应平台上直接闭站。

个人意见,仅供参考。

陶然
陶然 · 乐村淘 SEO主管 SEO经验2009年起

1.首先百度蜘蛛过来的,关google什么事;

2.通过日志你是可以区分那个连接是百度的;

3.偶会抓到但是对网站不好,用Robots屏蔽掉带?的链接,已经被抓去到了,就没辙了,最好的方法就是屏蔽掉鞥百度慢慢删除动态的链接。或者通过重写或者程序设置,将静态链接用canonical标签写入动态网页中。

4.我觉得蜘蛛模拟浏览器这点不用理会

5.应该不会吧,也许是我才疏学浅,蜘蛛完全没有必要去模拟什么呀。

栗国杰
栗国杰 · 从事seo行业五年了

1、应该是所在论坛;

2、不会发生改变;

3、根据ip来区分;

4、都会抓取;

5、为什么不301?感觉Robots屏蔽就可以了

6、模拟的应该是浏览器内核吧

8、还是根据ip吧

10、lamp上也可以设置,但没robots.txt简单易操作

自我感觉,不知对错。。。

崔家大院
崔家大院 · 网站诊断、建站、快速排名

第四个 解答 都会抓取。优先抓取静态  第三个  查询访问ip

刘振勇
刘振勇 · wsjpg纹身图案

这么多问题,我觉得你还是找夫唯老师帮你解答吧,有些问题问的太专业,专业的已经超出了SEO的范围,个人感觉

好复杂呀,估计没有人会回答

不会