失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 采集微信公众号数据的思路

采集微信公众号数据的思路

时间:2022-10-23 11:59:53

相关推荐

采集微信公众号数据的思路

微信公众号数据的采集有两个途径:

1,搜狗微信:因为搜狗与微信有合作,所以可以用搜狗微信进行采集;这个一个公众号只能采集最新的10条,要是获取历史文章就捉襟见肘了。而且要注意爬取频率,频率高会有验证码,这个平台只能进行小数据量的采集,不推荐。

2,微信公众号平台:这个微信的官方公众号平台,首先得申请公共号(因为微信近期开放了在公众号中插入其他公众号链接的功能,这样才可以进行数据的采集),然后在创作管理-图文素材-列表视图-新的创作--新写图文-点击超链接就可以进行爬虫的操作。这个可以爬取历史文章,是推荐的方式。(但要注意的是,这种频率过快,或者爬取太多,会封帐号,24小时,不是封ip,是封帐号。目前没有很好的办法,我个人使用的是加随机缓存时间,模拟人浏览的方式,牺牲时间换取结果。)

主要以第二种途径为主(微信公众号平台):

1,首先用selenium模拟登录微信公众号,获取相应的cookie保存下来。

2,拿到cookie,requests请求url,就会跳转到个人首页(因为有cookie的缘故),这个时候的url是具有token,而且每次请求都是不一样的token。用正则表达式将他获取下来。

3,构造data数据包,模拟get请求,返回数据(这个打开F12就能看到)。

4,拿到数据,解析数据。

这就是以微信公众号平台的数据采集思路,具体代码,网上有很多,这里就不贴出我的了,都大同小异,就是构造数据包,给服务器提交数据包,拿到返回数据,解析数据的步骤,代码简单,自己可以根据思路,尝试写写。

注意:恶意爬虫是一种危险行为,切记不要恶意的去爬取某个网站,遵守互联网爬虫规范,简单学习是可以的。

如果觉得《采集微信公众号数据的思路》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。