火车头采集文章根据关键词怎么采集?
第一次使用火车头采集文章,有哪些方法批量采集,怎么根据关键词来采集文章?如何采集文章最好,为什么我自己操作不了,怎么采集文章和关键词相符合的?平均一天采集多少比较好?
3 人参与回答
新建站点。站点是一个大整体,可以在站点下设置多个任务。
也可以直接创建任务。
在站点下,新建一个任务,需要填写任务名,然后根据你所采集的网址进行相应的数据填写。其中,采集网址的深度,可以从0 开始,表示当前页面采集。深度为1多用在列表页采集内容页处理,也可以为2、3等,根据需要填写。
添加采集网址的时候,可以单条添加也可以多条添加。本示例对网址进行深度为1的采集。*通配符表示所添加网址“变”的地方,其中数字变化表示从几到几,需要确保网址的存在和正确性,否则会影响采集。
添加网址之后,需要进行采集区域的处理。必须包含和不必包含的内容,可以根据自己需要进行填写,也可以不填。采集网址区域需要查看所采集网页源代码,根据代码唯一性确定所采集区域。
可以测试网址采集,如果不正确则需要修改采集区域。正确则直接进行下一步采集内容的处理。
点击第二步,需要填写所需网址。删除不需要的标签。因为我们只采集关键词,所以只需留下标题,其他的可删除。对于“标题”标签,可以根据源代码,查找你想采集的区域,也可以进行采集内容文字的替换或者删除。
采集内容选择好之后,就是发布处理的问题。发布的时候有在线发布和本地保存以及导入自定义数据库三种。一般采集关键词会保存在本地,可以保存txt和xml等不同形式。右下是发布模式,可以自定义发布。完成发布设置之后,就可以点击更新保存。
成功更新以后,点击开始任务,就可以进行网址采集关键词整理了。