永发信息网

java要写个网络爬虫 求思路 谢谢

答案:2  悬赏:0  手机版
解决时间 2021-03-07 11:17
  • 提问者网友:容嬷嬷拿针来
  • 2021-03-06 13:14
java要写个网络爬虫 求思路 谢谢

我有个理解不知道对不的 高手点评下

就是写个 程序去某个网站主页 然后得到这个页面的html
发现 有匹配 url的 就 开启一个线程 去这url页面中去抓html

再发现 就再起个线程 就这样慢慢抓

是不是???

还有别的方案吗??

搞网络爬虫必须要起线程吗?
最佳答案
  • 五星知识达人网友:猎心人
  • 2021-03-06 14:07
没必要,做线程。
做线程的思想是为了让你 支持多个页面一起爬,

单独的HTTP 请求就可以,

其实HTTP,你请求了,它就会把页面给你,然后你用IO流读取下来,

然后用正则 或者 replace 获取到自己 用的代码就 OK 了
全部回答
  • 1楼网友:鱼芗
  • 2021-03-06 14:38
给你推荐一个java的开源项目nutch,这个项目是由java实现的web搜索引擎,里面包含了一个叫crawler 的爬虫和searcher。
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯