蜘蛛抓取的都是源代码 大概判断依据就是网站的整体内容是否相似或一直
比较抓取后的结果
通过源码提取文章文字来对比相似度
源代码
网站的内容以及网站的模板代码,有很多都是用来一个模板所以比较容易打击
让更多人参与回答