如何通过python调用新浪微博的API来爬取数据

答案:2 悬赏:30 手机版

解决时间 2021-02-09 01:55

提问者网友：王者佥
2021-02-08 20:19

最佳答案

五星知识达人网友：冷風如刀
2021-02-08 21:04

先上结论，通过公开的api如果想爬到某大v的所有数据，需要满足以下两个条件：
1、在你的爬虫开始运行时，该大v的所有微博发布量没有超过回溯查询的上限，新浪是2000，twitter是3200。
2、爬虫程序必须不间断运行。
新浪微博的api基本完全照搬twitter，其中接口的参数特性与底层的NoSQL密不可分，建议先看点Nosql数据库的设计理念有助于更好的理解api设计。
一般来说，如果决定爬某个大v，第一步先试获取该用户的基本信息，中间会包含一条最新的status，记下其中的id号作为基准，命名为baseId。
接口中最重要的两个参数：
since_id：返回ID比since_id大的微博（即比since_id时间晚的微博），默认为0。
max_id：返回ID小于或等于max_id的微博，默认为0。
出于各种原因，获取statuses的接口，固定为按id降序排列（scan_index_forward=false），即最新的statuses返回在前。假设该微博第一天上线，就一个用户，发了一百条，id是1到100。而你在该用户发了第50条的时候开始运行的爬虫，即baseId=50。

全部回答

1楼网友：白昼之月
2021-02-08 21:12

每个人都可以通过新浪微博开发者平台注册自己的应用，我注册的是站内应用。注册后会为每个应用分配唯一的app key 和 app secret,这在上文提到的授权机制中需要用到，相当与每个应用的标示吧。

我要举报

如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！

点此我要举报以上问答信息