失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > GitHub:基于搜狗微信搜索的微信公众号爬虫接口

GitHub:基于搜狗微信搜索的微信公众号爬虫接口

时间:2021-11-18 23:41:58

相关推荐

GitHub:基于搜狗微信搜索的微信公众号爬虫接口

hello,小伙伴们,大家好,今天给大家分享的开源项目是微信公众号爬虫,感兴趣的朋友可以参考一下这个开源项目,看看是否可以给你提供一个新的思路。

项目简介

基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫

安装

pip install wechatsogou --upgrade

使用

import wechatsogou# 可配置参数# 直连ws_api = wechatsogou.WechatSogouAPI()# 验证码输入错误的重试次数,默认为1ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)# 所有requests库的参数都能在这用# 如 配置代理,代理列表中至少需包含1个 HTTPS 协议的代理, 并确保代理可用ws_api = wechatsogou.WechatSogouAPI(proxies={"http": "127.0.0.1:8888","https": "127.0.0.1:8888",})# 如 设置超时ws_api = wechatsogou.WechatSogouAPI(timeout=0.1)

获取特定公众号信息 - get_gzh_info

In [5]: import wechatsogou...:...: ws_api =wechatsogou.WechatSogouAPI()...: ws_api.get_gzh_info('南航青年志愿者')...:Out[5]:{'authentication': '南京航空航天大学','headimage': '/app/a/10050/oIWsFt1tmWoG6vO6BcsS7St61bRE','introduction': '南航大志愿活动的领跑者,为你提供校内外的志愿资源和精彩消息.','post_perm': 26,'view_perm': 1000,'profile_url': 'http://mp./profile?src=3&timestamp=1501140102&ver=1&signature=OpcTZp20TUdKHjSqWh7m73RWBIzwYwINpib2ZktBkLG8NyHamTvK2jtzl7mf-VdpE246zXAq18GNm*S*bq4klw==','qrcode': 'http://mp./rr?src=3&timestamp=1501140102&ver=1&signature=-DnFampQflbiOadckRJaTaDRzGSNfisIfECELSo-lN-GeEOH8-XTtM*ASdavl0xuavw-bmAEQXOa1T39*EIsjzxz30LjyBNkjmgbT6bGnZM=','wechat_id': 'nanhangqinggong','wechat_name': '南航青年志愿者'}

返回数据结构

{'profile_url': '', # 最近10条群发页链接'headimage': '', # 头像'wechat_name': '', # 名称'wechat_id': '', # 微信id'post_perm': int, # 最近一月群发数'view_perm': int, # 最近一月阅读量'qrcode': '', # 二维码'introduction': '', # 简介'authentication': '' # 认证}

搜索公众号

...:...: ws_api =wechatsogou.WechatSogouAPI()...: ws_api.search_gzh('南京航空航天大学')...:Out[6]:[{'authentication': '南京航空航天大学','headimage': '/app/a/10050/oIWsFt1MvjqspMDVvZjpmxyo36sU','introduction': '南京航空航天大学官方微信','post_perm': 0,'view_perm': 0,'profile_url': 'http://mp./profile?src=3&timestamp=1501141990&ver=1&signature=S-7U131D3eQERC8yJGVAg2edySXn*qGVi5uE8QyQU034di*2mS6vGJVnQBRB0It9t9M-Qn7ynvjRKZNQrjBMEg==','qrcode': 'http://mp./rr?src=3&timestamp=1501141990&ver=1&signature=Tlp-r0AaBRxtx3TuuyjdxmjiR4aEJY-hjh0kmtV6byVu3QIQYiMlJttJgGu0hwtZMZCCntdfaP5jD4JXipTwoGecAze8ycEF5KYZqtLSsNE=','wechat_id': 'NUAA_1952','wechat_name': '南京航空航天大学'},{'authentication': '南京航空航天大学','headimage': '/app/a/10050/oIWsFtwVmjdK_57vIKeMceGXF5BQ','introduction': '南京航空航天大学团委官方微信平台','post_perm': 0,'view_perm': 0,'profile_url': 'http://mp./profile?src=3&timestamp=1501141990&ver=1&signature=aXFQrSDOiZJHedlL7vtAkvFMckxBmubE9VGrVczTwS601bOIT5Nrr8Pcgs6bQ-oEd6jdQ0aK5WCQjNwMAhJnyQ==','qrcode': 'http://mp./rr?src=3&timestamp=1501141990&ver=1&signature=7Cpbd9CVQsXJkExRcU5VM6NuyoxDQQfVfF7*CGI-PTR0y6stHPtdSDqzAzvPMWz67Xz9IMF2TDfu4Cndj5bKxlsFh6wGhiLH0b9ZKqgCW5k=','wechat_id': 'nuaa_tw','wechat_name': '南京航空航天大学团委'},...]

数据结构

{'profile_url': '', # 最近10条群发页链接'headimage': '', # 头像'wechat_name': '', # 名称'wechat_id': '', # 微信id'post_perm': int, # 最近一月群发数'view_perm': int, # 最近一月阅读量'qrcode': '', # 二维码'introduction': '', # 介绍'authentication': '' # 认证}

解析最近文章页 - get_gzh_article_by_history

使用方法

In [1]: import wechatsogou...:...: ws_api =wechatsogou.WechatSogouAPI()...: ws_api.get_gzh_article_by_history('南航青年志愿者')...:Out[1]:{'article': [{'abstract': '我们所做的,并不能立马去改变什么——\n但千里之行,绿勤行永不止步。\n我们不会就此止步,之后我们又将再出发。\n 民勤,再见。\n绿勤行,不再见。','author': '','content_url': 'http://mp./s?timestamp=1501143158&src=3&ver=1&signature=B-*tqUrFyO7OqpFeJZwTA7JJtsHpz6BgC8ugyfgpOnyWLtPb85R5Zmu0JuZRbZKG72x4bQjMCcsfA5mC3GSSOPbYd-9tzvTgmroGRmc4Tzk8090KCiEu6EjA0YMHeytWJWpxr51M2FUYQhTWJ01pTmNnXLVAG6Ex6AG52uvvmQA=','copyright_stat': 100,'cover': '/mmbiz_jpg/icFYWMxnmxHDYgXNjAle7szYLgQmicbaQlb1eVFuwp2vxEu5eNVwYacaHah2N5W8dKAm725vxv5aM6DFlM59Wftg/0?wx_fmt=jpeg','datetime': 1501072594,'fileid': 502326199,'main': 1,'send_id': 1000000306,'source_url': '','title': '绿勤行——不说再见','type': '49'},{'abstract': '当时不杂,过往不恋,志愿不老,我们不散!','author': '','content_url': 'http://mp./s?timestamp=1501143158&src=3&ver=1&signature=B-*tqUrFyO7OqpFeJZwTA7JJtsHpz6BgC8ugyfgpOnyWLtPb85R5Zmu0JuZRbZKG72x4bQjMCcsfA5mC3GSSOGUrM*jg*EP1jU-Dyf2CVqmPnOgBiET2wlitek4FcRbXorAswWHm*1rqODcN52NtfKD-OcRTazQS*t5SnJtu3ZA=','copyright_stat': 100,'cover': '/mmbiz_jpg/icFYWMxnmxHCoY44nPUXvkSgpZI1LaEsZfkZvtGaiaNW2icjibCp6qs93xLlr9kXMJEP3z1pmQ6TbRZNicHibGzRwh1w/0?wx_fmt=jpeg','datetime': 1500979158,'fileid': 502326196,'main': 1,'send_id': 1000000305,'source_url': '','title': '有始有终 | -度环境保护服务部工作总结','type': '49'},...],'gzh': {'authentication': '南京航空航天大学','headimage': '/mmhead/Q3auHgzwzM4xV5PgPjK5XoPaaQoxnWJAFicibMvPAnsoybawMBFxua1g/0','introduction': '南航大志愿活动的领跑者,为你提供校内外的志愿资源和精彩消息。','wechat_id': 'nanhangqinggong','wechat_name': '南航青年志愿者'}}

数据结构

{'gzh': {'wechat_name': '', # 名称'wechat_id': '', # 微信id'introduction': '', # 简介'authentication': '', # 认证'headimage': '' # 头像},'article': [{'send_id': int, # 群发id,注意不唯一,因为同一次群发多个消息,而群发id一致'datetime': int, # 群发datatime 10位时间戳'type': '', # 消息类型,均是49(在手机端历史消息页有其他类型,网页端最近10条消息页只有49),表示图文'main': int, # 是否是一次群发的第一次消息 1 or 0'title': '', # 文章标题'abstract': '', # 摘要'fileid': int, #'content_url': '', # 文章链接'source_url': '', # 阅读原文的链接'cover': '', # 封面图'author': '', # 作者'copyright_stat': int, # 文章类型,例如:原创啊},...]}

就介绍到这里了,功能很多,感兴趣的小伙伴不妨自己去体验一下。

开源地址:/chyroc/WechatSogou

今天的推荐不知道大家喜欢吗?如果你们喜欢话,请在文章底部留言或点赞,以表示对我的支持,你们的留言,点赞,转发关注是我持续更新的动力哦!

关注公众号回复:"1024",免费领取一大波学习资源,先到先得哦!

如果觉得《GitHub:基于搜狗微信搜索的微信公众号爬虫接口》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。