永发信息网

php做采集站,如何采取整站数据内容或者是一个栏目的内容?是xml还是curl抓取??求解..

答案:2  悬赏:0  手机版
解决时间 2021-03-03 03:34
  • 提问者网友:绫月
  • 2021-03-02 23:22
问题:我会xml提取和curl抓取,但是那样只能提取一个页面的啊,如果我需要采集大量的内容如何做呢??
需要一次性采集整站的内容或者是栏目的内容,给个思路加方法吧...
我有基础,您说个思路就行,谢谢
最佳答案
  • 五星知识达人网友:你可爱的野爹
  • 2021-03-03 00:31
1. 先采集栏目页面,并将文章内容页的URL的提出出来,然后在循环CURL这个文章地址
2. 采集栏目页面需要提取分页URL,然后循环CURL栏目分页地址,重复上面步骤
比如:栏目页


    3. 文章1
    4. 文章2
    5. 文章3
    6. 文章4

解析这些栏目的文章URL,然后循环URL抓取这个文章,分页同理
全部回答
  • 1楼网友:醉吻情书
  • 2021-03-03 00:53
1. 先采集栏目页面,并将文章内容页的url的提出出来,然后在循环curl这个文章地址 2. 采集栏目页面需要提取分页url,然后循环curl栏目分页地址,重复上面步骤 比如:栏目页
    3. 文章1 4. 文章2 5. 文章3 6. 文章4
解析这些栏目的文章url,然后循环url抓取这个文章,分页同理
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯