4 人参与回答
火车头和高铁,规则要自己写,或者找别人代写。
下面这个是我用来根据关键词采集头条资讯的。
起始网址:
[地址参数1](搜索词,需要转换成URL编码)&pd=information&action_type=search_subtab_switch&page_num=[地址参数2](页码,从0开始,0就是第一页)&from=news&cur_tab_title=news
提取地址:
"item_source_url":"/group/[参数]/"
拼接地址:
[参数1]/
通过这几步就可以获取到文章的真实链接了,然后就是提取内容
标题就是h1,所以这样就好
文章内容在这段