12 人参与回答

百度可以精确识别采集内容,"纯采集"是没用的,一方面是没用,一方面比例过高的采集内容会影响网站的整体评价。

有两个关键词点:纯采集、比例。

先说纯采集,要了解为什么纯采集既没用又会损害网站的价值,先看看百度如何判断网页的价值:

  • 感兴趣的受众群大小
  • 该页面的稀缺程度(可替代性)
  • 该页面的质量高低
  • 该页面的时效性特征强弱

即受众,稀缺,质量和时效性四个要素,我们主要看百度对稀缺性的定义,百度搜索研发部用【新浪博客转载(采集)一篇由原创博客发出的文章】为例来陈述了这个问题。

某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻频道。从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,一方面它的转载带来了访问速度、稳定性等方面的增益,并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这可以被称之为站点增益。另一方面,它在转载过程中可能会改变页面的标题,而且依托其受众,在转载页面上,还有可能出现更多的有价值评论和回复等,还有可能存在指向其它相关事件的新闻链接。这些可以被称之为内容增益。因此即使主题内容没有任何变化,新浪的这次转载也是有价值的,其稀缺度也是较高的。同样,反过来说,如果转载的网站相当不知名,则其无法带来站点名/稳定性/速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。综上所述,对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。

四个关键词:

  • 主体内容重复
  • 站点增益
  • 内容增益
  • 纯重复

纯重复,就是纯采集的意思,纯重复 = 纯采集。主体内容重复,无站点增益,无内容增益,即为纯采集。

也就是说,"一切以价值为原点",采集的内容有没有价值,要看有没有站点增益和内容增益。

比例。在引文中,我标红了一个词【大量完全无增益的重复页面】,不谈剂量谈毒性都是耍流氓,凡事都讲一个量,喝水太多会水中毒,吃面条太多会得糖尿病。

再优秀的人也有缺点,我们不能因为这个优秀的人偶尔打个瞌睡、抽根烟就全盘否定这个人。有100个页面的网站,存在20~30个采集页面没什么问题,如果增加到50个,可能有点问题,但还要看你另外50个页面怎么样,增加到70个,那不管你另外30个页面怎么样,都极有可能被判断为劣质网站。

参考文章《浅谈互联网页面价值》,可以百度搜索"百度搜索研发部:浅谈互联网页面价值"。

丫头
丫头 · 阿克苏专业软件开发,专业小程序开发、网站制作、SEO QQ:1917970850

采集多了就该被惩罚了,还是不要采集了,就算是自己伪原创都比采集好

采集内容多了,要被百度惩罚的

搜外用户
搜外用户 · 来搜外学习的一名普通用户

一时爽而已,主体内容重复

没用 的

那纳西的星辰大海
那纳西的星 · 在seo摸爬滚打、擅长网站诊断,为您提供网站优化方案,934034556

现在百度算法开始打击采集了,建议暂时不要用火车头之类的采集工具了

欧壹
欧壹 · 6年中小型网站SEO流量提升经验,擅长从0到1的流量突破。

百度可以精确识别采集内容,"纯采集"是没用的,一方面是没用,一方面比例过高的采集内容会影响网站的整体评价。

有两个关键词点:纯采集、比例。

先说纯采集,要了解为什么纯采集既没用又会损害网站的价值,先看看百度如何判断网页的价值:

  • 感兴趣的受众群大小
  • 该页面的稀缺程度(可替代性)
  • 该页面的质量高低
  • 该页面的时效性特征强弱

即受众,稀缺,质量和时效性四个要素,我们主要看百度对稀缺性的定义,百度搜索研发部用【新浪博客转载(采集)一篇由原创博客发出的文章为例来陈述了这个问题。

某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻频道。

从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,一方面它的转载带来了访问速度、稳定性等方面的增益,并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这可以被称之为站点增益另一方面,它在转载过程中可能会改变页面的标题,而且依托其受众,在转载页面上,还有可能出现更多的有价值评论和回复等,还有可能存在指向其它相关事件的新闻链接。这些可以被称之为内容增益。因此即使主题内容没有任何变化,新浪的这次转载也是有价值的,其稀缺度也是较高的。

同样,反过来说,如果转载的网站相当不知名,则其无法带来站点名/稳定性/速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。

综上所述,对于主体内容重复的页面,我们应该评价其是否存在站点增益内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。

四个关键词:

  • 主体内容重复
  • 站点增益
  • 内容增益
  • 纯重复

纯重复,就是纯采集的意思,纯重复 = 纯采集。主体内容重复,无站点增益,无内容增益,即为纯采集。

也就是说,"一切以价值为原点",采集的内容有没有价值,要看有没有站点增益和内容增益。

比例。在引文中,我标红了一个词【大量完全无增益的重复页面】,不谈剂量谈毒性都是耍流氓,凡事都讲一个量,喝水太多会水中毒,吃面条太多会得糖尿病。

再优秀的人也有缺点,我们不能因为这个优秀的人偶尔打个瞌睡、抽根烟就全盘否定这个人。有100个页面的网站,存在20~30个采集页面没什么问题,如果增加到50个,可能有点问题,但还要看你另外50个页面怎么样,增加到70个,那不管你另外30个页面怎么样,都极有可能被判断为劣质网站。

参考文章《浅谈互联网页面价值》,可以百度搜索"百度搜索研发部:浅谈互联网页面价值"。

虽然算法打击,但是很多站也在采集,不被发现就好

怎么说呢,蜘蛛虽然是机器人,但是嚼烂了东西谁也不喜欢确实事实

一时爽而已

sheep吉他网
sheep · ✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈✈这个网站有点东西!嘎嘎带劲!快点开看看! - 右边→_→

文章上一定要多下经历,高质量的文章太重要了

采集毕竟不是优质文章 多了也无用  蜘蛛喜欢质量而不是数量  越是原创用户关心的内容 收录排名越好