咨询百度判定采集的标准是什么,是整个页面的相似度,还是这篇发布文章的相似度?
如果我这个文章是采集的(并且问答类型的 文字并不多) 但是该模板页面还有其他很多内容,会不会将采集的相似度降低 导致无法判定是采集的呢?
其实内容采集这个问题比较大,涉及的较多。
第一是看你采集出于什么目的,有些采集并不是仅仅为了收录,也可以作为丰富站内资源,方便用户查询,其他词引进来,如果采集的是优质的短内容不收录也可以给用户提供价值。
第二是搜索引擎一般是会以主体内容为主要判断依据,附加信息(就是你说的模板页面有其他内容)一般都是与其他站内大量重复的。
第三是大网站采集小网站也可能不会判断会采集,大网站权威性可信度高。很多时候搜索会放弃小网站提供的优质内容。
第四是百度或其他搜索引擎在处理采集上并没有你们想象的完善,很多采集也处理不了,建议多关注用户价值。
只是举例说几点,实际还是有很多情况。
标题以及内容的相似度
应该是发布文章的相似度
你可以掺杂伪原创和原创的东西
有些采集也是没办法,像小说站跟电影站
如果不是大量数据采集的话,建议伪原创或原创
指纹算法了解下!还有特殊字符惨杂其中。
让更多人参与回答