网站大量的采集文章内容,每天有采集怎么避免文章重复率太高,平时我们如何采集伪原创,不被重复文章,我们如何更新比较好?我的网站太多无法原创,怎么办?
在采集过程中,可以将已经采集的 URL 存入一个集合中,每次采集前先检查集合中是否已经存在该 URL,如果已经存在,则不进行采集。
每次采集前先检查集合中是否已经存在该 URL,如果已经存在,则不进行采集。
不采集就好了
采集就没法避免了吧
让更多人参与回答