有什么办法爬抓该目录下所有的网页URL

我想将这个目录下的所有URL链接爬抓出来,
这样我可以检测哪些网页收录了,
哪些没有收录的。
求助方法,
谢谢

我要抓取的是我们网站的/Trade/下面的




追加问题
分享到微信 收藏
    3 人参与回答
可乐先生 · 7年网站运营经验 QQ群:71378882
华尔兹 等 1 人赞同该回答

火车头写规则直接抓!

邓友琪 · 4年SEO潜行者,在做一个新项目,有新手SEO可以学习可以教
华尔兹 等 1 人赞同该回答

让建设网站的程序猿回答,我感觉是最合适的回复

1、查找URL生成规则,读取数据库表的每一条数据,因为无论是品牌页面还是产品页面都是一个独立的数据。只要读取相应数据库表的数据总数就是URL的数量。
2、笨方法,如果有相关后台权限,直接找目录一个个数吧,会得到一个大致数据
3、二次开发定制功能

我之前用的PHPCMS 因为URL有规律
列表页:www.XXXXX.com/list-8-1.html
内容页:www.XXXXX.com/content-217-180-1.html
TAG页:www.XXXXX.com/tag-1.html

所以每次都是我人为用EXCEL统计,后来就是我让我们家程序猿定制,我和我们家程序猿配合的很好,他也懂得我的意思,2天就给弄出来了。

每天生成多少新的链接,导出下载功能,自动提交百度,判断是否抓取。其实这种功能很简单。

回答的比较笼统,勿见怪

华尔兹 · 无所畏惧!

找个采集程序写规则,应该很容易得到url量。
然后分别批量提交和查询 。不想开发一个的话,提交方面试试用百度站长工具里的批量提交,查询可以借助站长工具或者下个软件等方法。