搜外网>搜外问答>问答页面

百度如何判定内容重复性?

微信

百度如何判定内容重复性?

本帖由用户发布，如有侵权联系删除 2020-05-24 发布1,894 次浏览

交换友情链接，就用搜外友链，方便！

18 人参与回答

用户174929 · 平面设计、工业设计、效果图、家具设计、建筑设计、室内设计、广告设计、景观设计、包装设计

用户101762、用户148684、用户196011 等 3 人赞同该回答

1、通用的基本判断原理就是逐个对比每个页面的数字指纹。这种方法虽然能够找出部分重复内容，但缺点在于需要消耗大量的资源，操作速度慢、效率低。

2、基于全局特征的I-Match

这种算法的原理是，将文本中出现的所有词先排序再打分，目的在于删除文本中无关的关键词，保留重要关键词。这样的方式去重效果效果高、效果明显。比如我们在伪原创时可能会把文章词语、段落互换，这种方式根本欺骗不了I-Match算法，它依然会判定重复。

3、基于停用词的Spotsig

文档中如过使用大量停用词，如语气助词、副词、介词、连词，这些对有效信息会造成干扰效果，搜索引擎在去重处理时都会对这些停用词进行删除，然后再进行文档匹配。因此，我们在做优化时不妨减少停用词的使用频率，增加页面关键词密度，更有利于搜索引擎抓取。

4、基于多重Hash的Simhash

这种算法涉及到几何原理，讲解起来比较费劲，简单说来就是，相似的文本具有相似的hash值，如果两个文本的simhash越接近，也就是汉明距离越小，文本就越相似。因此海量文本中查重的任务转换为如何在海量simhash中快速确定是否存在汉明距离小的指纹。我们只需要知道通过这种算法，搜索引擎能够在极短的时间内对大规模的网页进行近似查重。目前来看，这种算法在识别效果和查重效率上相得益彰。

用户174729

用户196011 等 1 人赞同该回答

这个很难说，还看网站本身权重

用户171137 · 南极下载站

用户196011 等 1 人赞同该回答

好像是人工抓取吧

用户163010

用户196011 等 1 人赞同该回答

内容相同

率超过80%

用户171189 · 千百味外卖运营

用户196011 等 1 人赞同该回答

这种算法涉及到几何原理，讲解起来比较费劲，简单说来就是，相似的文本具有相似的hash值

用户174659

用户196011 等 1 人赞同该回答

百度人工智能都会搞，判断一下重复内容那还不是小儿科

用户157263 · 环卫洒水车、垃圾车、压缩式垃圾车、扫路车、清扫车等专用车销售

用户196011 等 1 人赞同该回答

很难说的有的语不通顺收录排名都很好

用户53100 · 山东美新玻璃 | www . sdmeixinglass . com|

用户196011 等 1 人赞同该回答

这个很难说~~~~

用户112001 · 器物有魂

这个说不出

用户172730 · 自动化设备、非标自动化设备、自动装配线、汽车零配件自动装配线，自动化生产线

百度人工智能都会搞

用户174947 · 广州禹仁防水公司是一家工程防水、家装防水、维修补漏、干粉砂浆、卷材等一系列防水的建材公司.

不好说

用户89504 · 一往情深seo网站,免费提供seo优化教程,同时提供网站优化、整站优化分析、文章代写等服务,团队经验丰富,值得信赖!

多方面，文章图片模板，如果文章相同，但是图片模板不同，不会被认为是复制，只会认为是伪原创

用户171671

内容相同率超过80%

用户113096

重复性只是其中一个指数，还看网站本身权重

用户174741

不知道

百度如何判定内容重复性?

提供服务

常用链接

产品实验室

百度如何判定内容重复性?

收录宝

蜘蛛池

提供服务

常用链接

产品实验室