问题:我会xml提取和curl抓取,但是那样只能提取一个页面的啊,如果我需要采集大量的内容如何做呢??
需要一次性采集整站的内容或者是栏目的内容,给个思路加方法吧...
我有基础,您说个思路就行,谢谢
php做采集站,如何采取整站数据内容或者是一个栏目的内容?是xml还是curl抓取??求解..
答案:2 悬赏:0 手机版
解决时间 2021-03-03 03:34
- 提问者网友:绫月
- 2021-03-02 23:22
最佳答案
- 五星知识达人网友:你可爱的野爹
- 2021-03-03 00:31
1. 先采集栏目页面,并将文章内容页的URL的提出出来,然后在循环CURL这个文章地址
2. 采集栏目页面需要提取分页URL,然后循环CURL栏目分页地址,重复上面步骤
比如:栏目页
解析这些栏目的文章URL,然后循环URL抓取这个文章,分页同理
2. 采集栏目页面需要提取分页URL,然后循环CURL栏目分页地址,重复上面步骤
比如:栏目页
3. 文章1
4. 文章2
5. 文章3
6. 文章4
解析这些栏目的文章URL,然后循环URL抓取这个文章,分页同理
全部回答
- 1楼网友:醉吻情书
- 2021-03-03 00:53
1. 先采集栏目页面,并将文章内容页的url的提出出来,然后在循环curl这个文章地址
2. 采集栏目页面需要提取分页url,然后循环curl栏目分页地址,重复上面步骤
比如:栏目页
-
3. 文章1
4. 文章2
5. 文章3
6. 文章4
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯