用爬虫爬下来的数据怎么放在网页上

答案:2 悬赏:0 手机版

解决时间 2021-01-26 22:02

提问者网友：我是我
2021-01-26 12:56

用爬虫爬下来的数据怎么放在网页上

最佳答案

五星知识达人网友：过活
2021-01-26 14:36

显然不能直接储存，你还得copy解析出自己需要的内容。

比如我爬取某新闻网今日的国内新闻，那么我创建一个实体类，里面有属性：新闻标题，新闻时间，正文等等。解析出你需要的内容，封到实体里面，然后在dao层直接save到数据库zhidao即可

如果你爬下的是整个网页，这个好办，把它当做文件一样，用流操作保存到电脑上即可。当然保存网页会遇到编码问题，这个很棘手。

全部回答

1楼网友：野味小生
2021-01-26 15:44

用heritrix比nutch要好一些。 nutch适合做搜索引擎，只是附加有crawl的功能。而heritrix是专门crawl的。用lucene搞索引和查询很方便简单啊，数据库里面取出数据，封装成lucene doc，用ikanalyzer分词，建立索引啥的都给lucene了。现在就是要从外网爬我需要的信息，按照我本地数据的格式存入数据库了... 刚上手...

我要举报

如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！

点此我要举报以上问答信息