java要写个网络爬虫 求思路 谢谢
我有个理解不知道对不的 高手点评下
就是写个 程序去某个网站主页 然后得到这个页面的html
发现 有匹配 url的 就 开启一个线程 去这url页面中去抓html
再发现 就再起个线程 就这样慢慢抓
是不是???
还有别的方案吗??
搞网络爬虫必须要起线程吗?
java要写个网络爬虫 求思路 谢谢
答案:2 悬赏:0 手机版
解决时间 2021-03-07 11:17
- 提问者网友:容嬷嬷拿针来
- 2021-03-06 13:14
最佳答案
- 五星知识达人网友:猎心人
- 2021-03-06 14:07
没必要,做线程。
做线程的思想是为了让你 支持多个页面一起爬,
单独的HTTP 请求就可以,
其实HTTP,你请求了,它就会把页面给你,然后你用IO流读取下来,
然后用正则 或者 replace 获取到自己 用的代码就 OK 了
做线程的思想是为了让你 支持多个页面一起爬,
单独的HTTP 请求就可以,
其实HTTP,你请求了,它就会把页面给你,然后你用IO流读取下来,
然后用正则 或者 replace 获取到自己 用的代码就 OK 了
全部回答
- 1楼网友:鱼芗
- 2021-03-06 14:38
给你推荐一个java的开源项目nutch,这个项目是由java实现的web搜索引擎,里面包含了一个叫crawler 的爬虫和searcher。
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯