永发信息网

用php做采集功能网站的思路是怎样的,我会CURL和http,但是有些没有思路

答案:2  悬赏:60  手机版
解决时间 2021-12-29 15:30
  • 提问者网友:戎马万世
  • 2021-12-29 05:16
怎么样偷取整个站或者整个栏目的功能呢?curl和http只能一次对一个网址进行盗取啊,求解思路.谢谢,这是要用到循环码还是?或者给个完整采集站的源码呗?dedecms的采集可以借鉴吗?
最佳答案
  • 五星知识达人网友:躲不过心动
  • 2021-12-29 06:46
1、指定一个列表页,用curl或file_get_contents将页面读取进来;
2、用正则或者XML分析DOM,获取到列表中文章的超链接,将其保存为一个任务数组;
3、遍历数组(循环),使用curl或file_get_contents将数组中的超链接指向的页面读取进来;
4、用正则或者XML分析DOM,获取到文章正文内容,将内容写入数据库中或者使用file_put_contents保存下来。
这是我的大体思路,有错误之处请指正。
可能需要注意的问题:如果页面超时,可以改大脚本运行超时间;为了提高效率是否要改为并发执行的curl_multi;如果被盗取的网站使用了参考referer的防盗链机制需要伪造referer等。
全部回答
  • 1楼网友:持酒劝斜阳
  • 2021-12-29 07:17
搜一下:用php做采集功能网站的思路是怎样的,我会CURL和http,但是有些没有思路
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯