什么是CCbot

如题,很多站长在分析网站日志的时候就会发现各种各样的事情,也有很多不知名的蜘蛛陆续的到来,今天就出现了一个好久都没见过的CCbot,今天来给大家分享下

CCbot,全称为Common Crawl Bot,是一个非营利性基金会致力于提供可以被所有人访问和分析的Web爬网数据的开放存储库。

QQ截图20200528090436

如图,这个蜘蛛抓取的都是正常路径,我这403状态码是因为我把一些不是很重要的蜘蛛都给屏蔽掉了,

QQ截图20200528090720

个人感觉这个CC蜘蛛没什么用,除非是做国外SEO的同仁

当然了,出现这个蜘蛛也不是什么大事,如果你在网站日志中也发现了CCbot,不要惊慌,你接下来需要做的就是是允许它继续爬行还是禁止爬行?

屏蔽的方式有很多种,最直接的是在robots里面屏蔽,这样发现一个就得更改一次robots

另一种就是跟我上面图片一样,直接搜集一些蜘蛛然后用防火墙屏蔽

也许你们会说正常抓取没什么影响啊,这样的确没有什么问题,除了占用点带宽之外就没什么了。我之所以把这个拿出来给大家伙距离是因为有很多像这样的蜘蛛它不正常抓取你的栏目跟文章,所以就跟大家分享下,如果遇到这种情况只考虑是否需要这个蜘蛛就可以了

追加问题
    2 人参与回答
一抹阳光
一抹阳光 · 好看的皮囊万里挑一,有趣的灵魂独一无二。这!就是我。。。

大神能交下,在哪里可以查看网站日志,需要下什么软件吗?我目前只能在百度统计-实时访客里看

蚂蚁机械
蚂蚁机械 · 蚂蚁机械_全自动真空吸料机_上料机【生产厂家】

Common Crawl: PB 级规模的网络爬行——常被用来学习词嵌入。可从 Amazon S3 上免费获取。由于它是 WWW 的抓取,同样也可以作为网络数据集来使用。

SEO培训招生中
146