百度可以精确识别采集内容,"纯采集"是没用的,一方面是没用,一方面比例过高的采集内容会影响网站的整体评价。
有两个关键词点:纯采集、比例。
先说纯采集,要了解为什么纯采集既没用又会损害网站的价值,先看看百度如何判断网页的价值:
- 感兴趣的受众群大小
- 该页面的稀缺程度(可替代性)
- 该页面的质量高低
- 该页面的时效性特征强弱
即受众,稀缺,质量和时效性四个要素,我们主要看百度对稀缺性的定义,百度搜索研发部用【新浪博客转载(采集)一篇由原创博客发出的文章】为例来陈述了这个问题。
某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻频道。从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,一方面它的转载带来了访问速度、稳定性等方面的增益,并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这可以被称之为站点增益。另一方面,它在转载过程中可能会改变页面的标题,而且依托其受众,在转载页面上,还有可能出现更多的有价值评论和回复等,还有可能存在指向其它相关事件的新闻链接。这些可以被称之为内容增益。因此即使主题内容没有任何变化,新浪的这次转载也是有价值的,其稀缺度也是较高的。同样,反过来说,如果转载的网站相当不知名,则其无法带来站点名/稳定性/速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。综上所述,对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。
四个关键词:
- 主体内容重复
- 站点增益
- 内容增益
- 纯重复
纯重复,就是纯采集的意思,纯重复 = 纯采集。主体内容重复,无站点增益,无内容增益,即为纯采集。
也就是说,"一切以价值为原点",采集的内容有没有价值,要看有没有站点增益和内容增益。
比例。在引文中,我标红了一个词【大量完全无增益的重复页面】,不谈剂量谈毒性都是耍流氓,凡事都讲一个量,喝水太多会水中毒,吃面条太多会得糖尿病。
再优秀的人也有缺点,我们不能因为这个优秀的人偶尔打个瞌睡、抽根烟就全盘否定这个人。有100个页面的网站,存在20~30个采集页面没什么问题,如果增加到50个,可能有点问题,但还要看你另外50个页面怎么样,增加到70个,那不管你另外30个页面怎么样,都极有可能被判断为劣质网站。
参考文章《浅谈互联网页面价值》,可以百度搜索"百度搜索研发部:浅谈互联网页面价值"。
采集内容多了,要被百度惩罚的
没用 的
百度可以精确识别采集内容,"纯采集"是没用的,一方面是没用,一方面比例过高的采集内容会影响网站的整体评价。
有两个关键词点:纯采集、比例。
先说纯采集,要了解为什么纯采集既没用又会损害网站的价值,先看看百度如何判断网页的价值:
- 感兴趣的受众群大小
- 该页面的稀缺程度(可替代性)
- 该页面的质量高低
- 该页面的时效性特征强弱
即受众,稀缺,质量和时效性四个要素,我们主要看百度对稀缺性的定义,百度搜索研发部用【新浪博客转载(采集)一篇由原创博客发出的文章】为例来陈述了这个问题。
某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻频道。
从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,一方面它的转载带来了访问速度、稳定性等方面的增益,并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这可以被称之为站点增益。另一方面,它在转载过程中可能会改变页面的标题,而且依托其受众,在转载页面上,还有可能出现更多的有价值评论和回复等,还有可能存在指向其它相关事件的新闻链接。这些可以被称之为内容增益。因此即使主题内容没有任何变化,新浪的这次转载也是有价值的,其稀缺度也是较高的。
同样,反过来说,如果转载的网站相当不知名,则其无法带来站点名/稳定性/速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。
综上所述,对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。
四个关键词:
- 主体内容重复
- 站点增益
- 内容增益
- 纯重复
纯重复,就是纯采集的意思,纯重复 = 纯采集。主体内容重复,无站点增益,无内容增益,即为纯采集。
也就是说,"一切以价值为原点",采集的内容有没有价值,要看有没有站点增益和内容增益。
比例。在引文中,我标红了一个词【大量完全无增益的重复页面】,不谈剂量谈毒性都是耍流氓,凡事都讲一个量,喝水太多会水中毒,吃面条太多会得糖尿病。
再优秀的人也有缺点,我们不能因为这个优秀的人偶尔打个瞌睡、抽根烟就全盘否定这个人。有100个页面的网站,存在20~30个采集页面没什么问题,如果增加到50个,可能有点问题,但还要看你另外50个页面怎么样,增加到70个,那不管你另外30个页面怎么样,都极有可能被判断为劣质网站。
参考文章《浅谈互联网页面价值》,可以百度搜索"百度搜索研发部:浅谈互联网页面价值"。
虽然算法打击,但是很多站也在采集,不被发现就好
怎么说呢,蜘蛛虽然是机器人,但是嚼烂了东西谁也不喜欢确实事实
一时爽而已