最近一直在分析日志,碰到几个问题,希望高手给解答一下,或者大家一起探讨一下! 推荐热议

1.计算百度蜘蛛抓取量时,需不需要先把百度图片蜘蛛,百度图片蜘蛛和网页蜘蛛算抓取量需不需要分开算?

2.计算“唯一不重复抓取量”,不同IP的百度蜘蛛抓取同一页面算重复抓取吗?

3.从日志中取出唯一不重复抓取页面有什么意义(就是将不同IP的百度蜘蛛抓取同一页面也算作重复筛选掉),很多人都说分析这个没意义,那大家说说意义何在?

4.用光年工具以默认30分钟为基点,算出的平均抓取页面数在1.8~2.3之间是不是正常,多少才算正常?(有高手方便透露下数据吗?)

5.用光年工具算出单页面的抓取停留时间为230~320s之间,是不是正常,多少才算正常?(有高手方便透露下数据吗?)

追加问题
    5 人参与回答
阳勇
阳勇 · 12年网络营销实战经验 !擅长seo、sem/全网营销运营。QQ:1789663461

你好!
网站日志分析是很重要。不过也不要太过注重一些不重要的细节。
你的问题主要有三:
1、我们分析网站日志主要是看网页蜘蛛抓取情况,其他的图片蜘蛛或商务蜘蛛等不要太在意;
2、重复抓取量,这个可以注意一下,只要不是重复抓取频率过高,也没大碍。如果蜘蛛抓取某一个和几个页面频率很高,会妨碍蜘蛛抓取其他页面的几率,浪费资源,这种情况需要想法控制一下蜘蛛爬行轨迹,引导好蜘蛛抓取你想要抓取的页面。
3、就是网页抓取停留时间了,这个没有一个具体标准。关键看你网站的规模和内容质量而定,关键还应该看你网页收录情况而定吧,只要收录正常,就不要太在意停留时间了。

墨寒
墨寒 · 没啥说的......

上面这位仁兄说的很详细,不过我有其他的几点看法:

图片蜘蛛需不需要计算,主要看百度收录了你的图片后,能不能为你的网站带来有效的访问及流量或者是其他有利于网站发展的东西。

例如我的一个网站,百度收录了大量的图片,每天从百度图片页面也有不少的精准 IP来源(是精准IP哦,几乎每个IP都会有5个以上的PV访问),所以你得依照具体的情况来看需不需要,如果不需要的话,完全可以在Robots里把图片目录屏蔽掉。

其次是重复抓取量,这个也得依据具体情况来看吧,如果是更新频繁得页面,当然是抓取得次数多喽。

网页抓取停留的时间,我想是与所抓取页面的大小,网站的访问速度等等因素有关,这个我就不太了解了。

唯爱シ念流年
唯爱シ念流 · 试管婴儿服务--可选性别、供卵

上面2位仁兄回答得相当不错

峰
· 3dlabstore,3D打印机,3D打印材料

和几位大神学习了

回复问答禁止带推广链接,了解合理带链接的方法