用爬虫爬下来的数据怎么放在网页上
答案:2 悬赏:0 手机版
解决时间 2021-01-26 22:02
- 提问者网友:我是我
- 2021-01-26 12:56
用爬虫爬下来的数据怎么放在网页上
最佳答案
- 五星知识达人网友:过活
- 2021-01-26 14:36
显然不能直接储存,你还得copy解析出自己需要的内容。
比如我爬取某新闻网今日的国内新闻,那么我创建一个实体类,里面有属性:新闻标题,新闻时间,正文等等。解析出你需要的内容,封到实体里面,然后在dao层直接save到数据库zhidao即可
如果你爬下的是整个网页,这个好办,把它当做文件一样,用流操作保存到电脑上即可。当然保存网页会遇到编码问题,这个很棘手。
比如我爬取某新闻网今日的国内新闻,那么我创建一个实体类,里面有属性:新闻标题,新闻时间,正文等等。解析出你需要的内容,封到实体里面,然后在dao层直接save到数据库zhidao即可
如果你爬下的是整个网页,这个好办,把它当做文件一样,用流操作保存到电脑上即可。当然保存网页会遇到编码问题,这个很棘手。
全部回答
- 1楼网友:野味小生
- 2021-01-26 15:44
用heritrix比nutch要好一些。
nutch适合做搜索引擎,只是附加有crawl的功能。而heritrix是专门crawl的。
用lucene搞索引和查询很方便简单啊,数据库里面取出数据,封装成lucene doc,用ikanalyzer分词,建立索引啥的都给lucene了。现在就是要从外网爬我需要的信息,按照我本地数据的格式存入数据库了... 刚上手...
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯