失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > python爬虫之SSL 加密 破解有道词典加密算法并编写有道词典实时翻译

python爬虫之SSL 加密 破解有道词典加密算法并编写有道词典实时翻译

时间:2019-05-20 02:22:36

相关推荐

python爬虫之SSL 加密 破解有道词典加密算法并编写有道词典实时翻译

1、SSL

-SSL证书就是指遵守SSL安全套阶层协议的服务器数字证书(SercureSocketLayer)

-美国王景公司开发

-CA(CertifacateAuthority)是数字证书认证中心,是发放、管理、废除数字证书的收信人的第三方机构

-遇到不信任的SSL证书,需要单独处理

解决以下错误:

错误1:AttributeError: 'module' object has no attribute '_create_unverified_context',

错误2:URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:661)>

from urllib import request#本来是要把不安全的证书改为SSL安全的,但是我用的360浏览器打开是安全的,#假装当不安全实例改改,遇到不安全的可以用#导入python ssl处理模块import ssl#利用非认证上下文环境替换认证的上下文环境,添加此句可忽略不安全证书信息ssl._create_default_https_context = ssl._create_unverified_context()url = "/mormhweb"rsp = request.urlopen(url)html = rsp.read().decode()print(html)

2、js加密

-有的反爬虫策略采用js对需要传输的数据进行加密处理(通常是取md5值)

-经过加密、传输的就是密文,但是

-加密函数或者过程一定是在浏览器完成,也就是会把代码(js代码)暴露给使用者

-通过阅读加密算法,就可以模拟出加密过程,从而达到破解

3、以破解有道词典加密算法为例:

(1)有道词典在线翻译页面:/?keyfrom=fanyi.logo

(2)例如查询girl,打开审查元素(一般F12键),查看network->all,找到对应页面,点击headers查看有关信息,动态刷新,编写文件如下:

'''破解有道词典 v1'''from urllib import request,parsedef youdao(key):dc = input("请输入所要翻译的语句:")url = "/translate_o?smartresult=dict&smartresult=rule"data = {'i':dc,'from':'AUTO','to':'AUTO','smartresult':'dict','client':'fanyideskweb','salt':'15548857218744','sign':"d7a8cf6acc9f4c2f0024b95dd55ae319",'ts':'1554885721874','bv':'bbb3ed55971873051bc2ff740579bb49','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTlME'}data = parse.urlencode(data).encode()headers = {'Accept':'application/json, text/javascript, */*; q=0.01',#'Accept-Encoding':'gzip, deflate','Accept-Language':'zh-CN,zh;q=0.9','Connection':'keep-alive','Content-Length':'237','Content-Type':'application/x-www-form-urlencoded; charset=UTF-8','Cookie':'OUTFOX_SEARCH_USER_ID=1971107538@10.169.0.82; JSESSIONID=aaa9f1yLaywqDfIVlxgOw; OUTFOX_SEARCH_USER_ID_NCOO=228140715.63433138; ___rl__test__cookies=1554885721865','Host':'','Origin':'','Referer':'/?keyfrom=fanyi.logo','User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36','X-Requested-with':"XMLHttpRequest"}req = request.Request(url=url,data=data,headers=headers)rsp = request.urlopen(req)html = rsp.read().decode('utf-8')print(html)if __name__ == '__main__':youdao("girl")

报错:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

解决:导入gzip解码或者注掉不用gzip

此时查询girl可以,查询其他不行,我们注意到data里面有属性“salt”和“sign”,现在研究一下是否和这个有关。

在network->all下,找到fanyi.min.js文件,查看Response,将response里面的文件复制保存下来,我们看到这里是很长的无格式的一段代码,推荐一个工具/codeformat/js,在这里可以进行代码格式化,这里就不贴图了,保存到文本文件就行。

在文件里查找salt和sign,这个文件里有很多个,但是内容功能都大差不差,举例如下:可以看到他们的计算公式

接下来我们开始用代码模拟他们的方法,进行编写。

在审查元素中console(左图)输入如下,右图为在pycharm终端输入,此时我们得到的时间位数和文件中不一样,差三位具体分析见最终代码,但是可以进行编写转换:

在审查元素console输入如下,我们可以看到这个就是生成随机数。

终极代码:

'''v2 处理js加密代码''''''通过查找,能找到js代码中操作代码1、这个是计算salt的公式:r = "" + (new Date).getTime(),i = r + parseInt(10 * Math.random(), 10);2、sign: n.md5("fanyideskweb" + e + i + "@6f#X3=cCuncYssPsuRUE")md5一共需要四个参数,第一个和第四个都是固定值的字符串,第三个是所谓的salt,第二个参数就是输入的要查找的单词'''def getSalt():'''salt公式是:r = "" + (new Date).getTime(),i = r + parseInt(10 * Math.random(), 10);把它翻译成python代码:return:'''import time,randomsalt = int(time.time()*1000) + random.randint(0,10)return salt#v代表得到的每个md5值def getMD5(v):import hashlibmd5 = hashlib.md5()#md5.update(v,encoding='utf-8') TypeError: update() takes no keyword arguments#update需要一个bytes格式的参数md5.update(v.encode('utf-8'))sign = md5.hexdigest()return signdef getSign(key,salt):sign = "fanyideskweb" + key + str(salt)+ "@6f#X3=cCuncYssPsuRUE"sign = getMD5(sign)return signfrom urllib import request,parsedef youdao(key):url = "/translate_o?smartresult=dict&smartresult=rule"#在之前先获取salt,保证之后的每个函数的salt都是同一个salt = getSalt()data = {'i':key,'from':'AUTO','to':'AUTO','smartresult':'dict','client':'fanyideskweb','salt':str(salt),'sign':getSign(key,salt),'ts':'1554885721874','bv':'bbb3ed55971873051bc2ff740579bb49','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTlME'}#print(data)data = parse.urlencode(data).encode()headers = {'Accept':'application/json, text/javascript, */*; q=0.01',#'Accept-Encoding':'gzip, deflate','Accept-Language':'zh-CN,zh;q=0.9','Connection':'keep-alive','Content-Length':len(data),'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8','Cookie':'OUTFOX_SEARCH_USER_ID=1971107538@10.169.0.82; JSESSIONID=aaa9f1yLaywqDfIVlxgOw; OUTFOX_SEARCH_USER_ID_NCOO=228140715.63433138; ___rl__test__cookies=1554885721865','Host':'','Origin':'','Referer':'/?keyfrom=fanyi.logo','User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36','X-Requested-with':"XMLHttpRequest"}req = request.Request(url=url,data=data,headers=headers)rsp = request.urlopen(req)html = rsp.read().decode('utf-8')print(html)if __name__ == '__main__':a = input("请输入要翻译的语句:")youdao(a)

这样我们就可以随意翻译语句了~啊hahaha~

如果觉得《python爬虫之SSL 加密 破解有道词典加密算法并编写有道词典实时翻译》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。