蜘蛛爬取网站内容但是不收录的原因?
蜘蛛是爬取页面次数挺多的,每次爬取页面内容了,但是没有被收录是什么原因,为什么爬取是正常的,但是没有被收录起来,网站反复无常总是这样呢?为什么爬取页面内容就是没有被收录起来?
11 人参与回答
内容质量
有以下几个可能的原因导致蜘蛛爬取网站内容但不收录:
- 网站被设置了Robots.txt文件,阻止了搜索引擎的访问。蜘蛛会按照robots.txt文件中的规则来判断是否能够访问和爬取网站内容。
- 网站页面的meta标签中可能有noindex指令或者X-Robots-Tag头部信息,告诉搜索引擎不要将该页面收录。
- 页面存在重定向或严重的技术问题,例如错误的HTTP响应状态码、页面加载速度过慢等,导致蜘蛛无法正常爬取到内容。
- 内容质量不佳,包括重复内容、浅尝辄止的内容、低质量的用户生成内容等,这些内容可能不符合搜索引擎的抓取与收录标准。
- 网站被搜索引擎处以惩罚,如被手动操作或遭受算法更新的影响,导致网站的排名下降或者被移除索引。
综上所述,以上是一些常见的原因,导致蜘蛛爬取网站内容但不予以收录。具体情况可能因网站的设置、技术、内容质量和搜索引擎的政策等方面而有所不同。
这种不奇怪,只要是抓取了,后面一般都会放出来的