爬虫怎么爬取js后面加载的数据

答案:2 悬赏:30 手机版

解决时间 2021-03-16 15:23

提问者网友：暮烟疏雨之际
2021-03-16 04:49

爬虫怎么爬取js后面加载的数据

最佳答案

五星知识达人网友：不甚了了
2021-03-16 05:16

推荐个很好用的软件，我也是一直在用的，就是前嗅的ForeSpider软件，
他有自己编写的脚本语言，网上通过js生成的内容都可以写几行脚本就可以采集数据了！！！！
我是一直用过很多的采集软件，最后选择的前嗅的软件，ForeSpider这款软件是可视化的操作。简单配置几步就可以采集。如果网站比较复杂，这个软件自带爬虫脚本语言，通过写几行脚本，就可以采集所有的公开数据。
软件还自带免费的数据库，数据采集直接存入数据库，也可以导出成excel文件。
如果自己不想配置，前嗅可以配置采集模板，我的模板就是从前嗅购买的。
另外他们公司不光是软件好用，还有自己的数据分析系统，直接采集完数据后入库，ForeSpider内部集成了数据挖掘的功能，可以快速进行聚类分类、统计分析等，采集结果入库后就可以形成分析报表。
最主要的是他采集速度非常快，我之前用八爪鱼的软件，开服务器采，用了一个月采了100万条，后来我用ForeSpider。笔记本采的，一天就好几百万条。
这些都是我一直用前嗅的经验心得，你不妨试试。
建议你可以下载一个免费版试一试，免费版不限制功能，没有到期时间。

全部回答

1楼网友：刀戟声无边
2021-03-16 05:34

我用jsoup写爬虫，一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面js代码来解决。 1、有些页面元素被隐藏起来了->换selector解决 2、有些数据保存在js/json对象中->截取对应的串，分析解决 3、通过api接口调用->伪造请求获得数据还有一个终极方法 4、使用phantomjs或者casperjs这种headless浏览器

我要举报

如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！

点此我要举报以上问答信息