相似文本判断 Shingle算法

作者: 匿名用户
时间:2021-01-06
浏览:53

网页查重技术,即判断一个文件内容是否存在抄袭、复制另外一个或多个文件的技术。
1993年Arizona大学的Manber(Google现副总裁、工程师)推出了一个sif工具,寻找相似文件。
1995年Stanford大学的Brin(Sergey Brin,Google创始人之一)和Garcia-Molina等人在“数字图书馆”工程中首次提出文本复制检测机制COPS(Copy Protection System)系统与相应算法[Sergey Brin et al 1995].之后这种检测重复技术被应用到搜索引擎中,基本的核心技术相似。
Shingle算法是抽取多个特征进行比较,处理起来比较复杂一些,比较的方法是完全一致的Shingle个数。然后除以两个文档的Shingle总数减去一致的Shingle个数,这种方法计算出的数值为“Jaccard系数”,它可以判断集合的相似度。Jaccard 系数的计算方法集合的交集除以集合的并集。
Shingle [ˈʃɪŋgəl]在英文中表示相互覆盖的瓦片。先通过一个例子来说明Shingle算法:
假设有A、B两个文档的标题,A文档的标题是:明起电话订火车票可全国通取取票时间延12小时;B文档的标题是:火车票电话订票实现全国通取网上预售期延长。
搜索引擎如何知道这两篇文档标题是否是重复的?比如我们可以以2个汉字切为一个Shingle的方法:

本文原文地址:http://www.yiqiseo.com/shingle/

本篇文章来源于 http://www.yiqiseo.com/shingle/ 版权均归站长本人所有,如有侵权,请联系seowhy2018删除。
    0 人参与评论
该文章尚未收到评论 :(
提交评论禁止带推广链接、违法词及灌水,违规将封禁账号!!了解合理带链接的方法