关于网站日志的一些问题

关于网站日志的很多问题找了很久都没有完整的答案,希望各位大神来帮忙回答一下网站日志的问题。
1、用光年日志分析出来有概要分析、目录分析、页面分析、IP排行、关键词字分析、用户状态码、蜘蛛状态码,对于站长来说主要看哪些数据?这些数据有什么用?
2、baiduspider主要抓取的是/member/目录以及/admin/目录,作为一个企业营销网站,是否应该在robots上屏蔽掉这些目录的抓取。
3、出现404蜘蛛状态码的页面是不是应该去百度站长平台提交死链接?几十上百个的话是一个一个地提交还是有其他办法?
4、2015-05-11 16:07:48 GET /news/news112.html - - 118.123.16.14 HTTP/1.0 Mozilla/5.0+(compatible;+MJ12bot/v1.4.5;+http://www.majestic12.co.uk/bot.php?+) - 200 27069 93
这种类型的出现得特别多,是不是属于采集站的蜘蛛?要不要屏蔽IP?

追加问题
    1 人参与回答

问题一:seo主要看蜘蛛状态码,抓取目录结构等,是否完整,接着根据实际发生的现象来判定,抓取是否出现障碍等问题。其他用户状态码,其他工具分析的会更加全面。
问题二:/admin/目录,其实可以不屏蔽,有会暴露后台路径的风险,/member/也不需要屏蔽,有些词可以利用会员做排名的。
问题三:是,几百个上千个的话,如目录死链接是不能提交的,只能满足文章死链接,如果能找到规律用Robots屏蔽就行,不然只能手工提交。半个月可以提交完了吧。最后经过几轮反复复查提交,基本上可以解决死链问题了。放着问题不大,但是对spider抓取配额影响有点,最好方式是提交。
问题三:检验真假蜘蛛,用DOS命令,nslookup反查即可,采集蜘蛛一般会伪装,特点是抓取文章页,同时数量较大,然后可能会根据站长习惯发生在夜间。