搜外网>搜外问答>问答页面

网站大量采集怎么避免重复?

网站大量的采集文章内容,每天有采集怎么避免文章重复率太高,平时我们如何采集伪原创,不被重复文章,我们如何更新比较好?我的网站太多无法原创,怎么办?

追加问题
    5 人参与回答

在采集过程中,可以将已经采集的 URL 存入一个集合中,每次采集前先检查集合中是否已经存在该 URL,如果已经存在,则不进行采集。

兴哥
兴哥 · POS机刷卡机免费办理

每次采集前先检查集合中是否已经存在该 URL,如果已经存在,则不进行采集。

十万伏特
十万伏特 · 普通上班族,只想过平静的生活。

不采集就好了

采集就没法避免了吧

天行健咨询
天行健咨询 · 精益生产管理与六西格玛管理咨询,培训机构

在采集过程中,可以将已经采集的 URL 存入一个集合中,每次采集前先检查集合中是否已经存在该 URL,如果已经存在,则不进行采集。