失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > python爬虫(一):模拟登陆微博

python爬虫(一):模拟登陆微博

时间:2019-06-08 03:55:02

相关推荐

python爬虫(一):模拟登陆微博

最近花了不少时间来学python爬虫,觉得还是有很多问题的,比如说requests.get获得Pixiv的网页源代码,一直获取不到,不过我猜测大概是headers的问题,准备之后处理。

废话少说我们先来讲一讲模拟登陆微博的问题。

第一步:用Chrome来抓包

打开微博(,这个是手机微博的网址,之所以用这个网址,是因为源代码少,方便分析)

点击登陆

在这里按F12查看网页源代码,选择network,把preserve log勾上,然后右击name把method勾上。

输入账号密码登陆

找到method为POST的那一行,然后点击

这里有一些我们需要的信息,首先是Request URL,这个是表单提交的地址,我们的数据就是发送到了这里。

然后就是Request headers,这里也有一些有用的东西,虽然说只有User-Agent是必需的,但在实际操作中发现还需要Accept,Accept-Encoding,Accept-Language,Connection,Origin,Referer。那我全都要不就行了,然而加了Content-Length,Content-Type,Host就出现了Bug,我也不知道是为什么,有兴趣的朋友可以去查一查。

然后就是form data了

除了没有值的都需要。

好了,前期工作都完成了。

第二步:代码部分

终于完成了前期准备,我直接上代码。

#注python版本为2.7,python3运行会报错import requestsuser = '你的账号'password = '你的密码'user_headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36','Accept': '*/*','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9','Connection': 'keep-alive','Origin': '','Referer': '/signin/login?entry=mweibo&r=https%3A%2F%%2F&backTitle=%CE%A2%B2%A9&vt='}login_data = {'username': user,'password': password,'savestate': '1','r': '/','ec': '1','pagerefer': '/pub/','entry': 'mweibo','mainpageflag': '1'}session = requests.Session()session_url = '/sso/login'#这里是抓包时得到的地址,不是登陆页的地址response = session.post(session_url, headers = user_headers, data = login_data)url='/6333949***'#注意这里的网址不是,要加上你点开个人资料后那个地址中间那串数字,不然你打印出来的还是登陆页的源码。html=session.get(url,headers=user_headers).contentprint(html)

登陆的关键是session,session会把cookies保存下来,这样在cookies失效之前,你都可以访问微博而不需要再次POST表单。就比如倒数第二行代码,如果没有session,你会获得登陆页的源码,而不是登陆后网页的源码。

如果觉得《python爬虫(一):模拟登陆微博》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。