失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 破解有道翻译反爬虫机制

破解有道翻译反爬虫机制

时间:2020-12-25 18:48:53

相关推荐

破解有道翻译反爬虫机制

破解有道翻译反爬虫机制

web端的有道翻译,在之前是直接可以爬的。也就是说只要获取到了他的接口,你就可以肆无忌惮的使用他的接口进行翻译而不需要支付任何费用。那么自从有道翻译推出他的API服务的时候,就对这个接口做一个反爬虫机制(如果大家都能免费使用到他的翻译接口,那他的API服务怎么赚钱)。这个反爬虫机制在爬虫领域算是一个非常经典的技术手段。那么他的反爬虫机制原理是什么?如何破解?接下来带大家一探究竟。

一、正常的爬虫流程:

如果你要爬取他的翻译接口,这个流程还是不能少的。首先我们打开有道翻译的链接:/。然后在页面中右键->检查->Network项。这时候就来到了网络监听窗口,以后你在这个页面中发送的所有网络请求,都会在Network这个地方显示出来。接着我们在翻译的窗口输入我们需要翻译的文字,比如输入hello。然后点击自动翻译按钮,那么接下来在下面就可以看到浏览器给有道发送的请求,这里截个图看看:

01.png

在上图,我们可以看到发送了很多的网络请求,这里我们点击第一个网络请求进行查看:

02.png

可以看到,我们在点击自动翻译的时候,发送的请求就是上图中Request URL的那个URL,然后我们再点击那个Response,我们可以看到返回的结果:

03.png

并且,现在我们再回到Headers的地方,然后滚动到最下面,可以看到有一个Form Data的地方,这个下面展示了许多的数据,这些数据就是你在点击翻译的时候浏览器给服务器发送的数据:

04.png

对其中几个比较重要的数据进行解释:

i:需要进行翻译的字符串,这个地方我们输入的是hello。salt:加密用到的盐。这个是我们破解有道反爬虫机制的关键点,后面会讲到。sign:签名字符串。也是破解反爬虫机制的关键点。

其他的数据类型暂时就不怎么重要了,都是固定写法,我们后面写代码的时候直接鞋子就可以了。到现在为止,我们就可以写一个简单的爬虫,去调用有道翻译的接口了。这里我们使用的网络请求库是Python3自带的urllib,相关代码如下:

# 导入需要的库import urllib.requestimport urllib.parseimport json# 等待用户输入需要翻译的单词content = input('请输入需要翻译的单词:')# 有道翻译的url链接url = '/translate_o?smartresult=dict&smartresult=rule&sessionFrom=null'# 发送给有道服务器的数据data = {}# 需要翻译的文字data['i'] = content# 下面这些都先按照我们之前抓包获取到的数据data['from'] = 'AUTO'data['to'] = 'AUTO'data['smartresult'] = 'dict'data['client'] = 'fanyideskweb'data['salt'] = '1500349255670'data['sign'] = '997742c66698b25b43a3a5030e1c2ff2'data['doctype'] = 'json'data['version'] = '2.1'data['keyfrom'] = 'fanyi.web'data['action'] = 'FY_BY_CL1CKBUTTON'data['typoResult'] = 'true'# 对数据进行编码处理data = urllib.parse.urlencode(data).encode('utf-8')# 创建一个Request对象,把url和data传进去,并且需要注意的使用的是POST请求request = urllib.request.Request(url=self.url, data=data, method='POST')# 打开这个请求response = urllib.request.urlopen(request)# 读取返回来的数据result_str = response.read().decode('utf-8')# 把返回来的json字符串解析成字典result_dict = json.loads(result_str)# 获取翻译结果print('翻译的结果是:%s' % result_dict)

我们运行这个文件后,当我们输入的是hello的时候,我们可以得到哈罗的这个正确的翻译结果。而当我们输入其他需要翻译的字符串的时候,比如输入i love you,那么就会得到一个错误代码{"errorCode":50}。这就奇怪了,有道词典不可能只能翻译一个英文单词吧。而这个,就是有道词典的反爬虫机制。接下来我们就来破解有道词典的反爬虫机制。

二、破解反爬虫机制:

我们可以多次的进行翻译,并且每次翻译后都去查看翻译的时候发送的这个网络请求,比较每次翻译时候发送的Form Data的值。我们注意到,Form Data在每次发送网络请求的时候,只有isalt以及sign这三个是不同的,其他的数据都是一样的,这里我用helloworld两个单词翻译时候Form Data的数据进行比较:

05.png

06.png

图中的Form Data也证实了我刚刚所说的,就是除了isalt以及sign是不一样的。其余都是一样的。而i不一样是很正常的。因为i代表的是要翻译的字符串,这个不同是很正常。而saltsign这两个东西不一样,是怎么产生的呢?这里我们可以分析一下,这两个值在每次请求的时候都不一样,只有两种情况:第一是每次翻译的时候,浏览器会从有道服务器获取一下这两个值。这样可以达到每次翻译的时候值不同的需求。第二是在本地,用JS代码按照一定的规则生成的。那么我们首先来看第一个情况,我们可以看到在每次发送翻译请求的时候,并没有一个请求是专门用来获取这两个值的:

07.png

所以就可以排除第一种情况。就只剩下一种可能,那就是在本地自己生成的,如果是在本地自己生成的,那么规则是什么呢?这里我们点击网页,查看网页源代码,查找所有的JS文件,我们找到那个fanyi.js

08.png

然后点击这个文件,跳转到这个源文件中,然后全选所有的代码,复制下来,再打开站长工具:/Tools/jsformat.aspx。把代码复制进去后,点击格式化:

09.png

然后把格式化后的代码,复制下来,用sublime或者pycharm打开都可以,然后搜索salt,可以找到相关的代码:

10.png

这里我们就可以发现所有的值的生成原理了。这里来做个简介:

d:代表的是需要翻译的字符串。f:当前时间的时间戳加上0-10的随机字符串。u:一个常量——fanyideskwebc:一个常量——rY0D^0'nM0}g5Mm1z%1G4salt:就是f变量,时间戳。sign:使用的是u + d + f + cmd5的值。

知道saltsign的生成原理后,我们就可以写Python代码,来对接他的接口了,以下是相关代码:

#!/usr/bin/python# -*- coding: utf-8 -*-import requestsimport hashlibimport timefrom pprint import pprinturl = "/translate_o"params = {"smartresult": "dict", "smartresult": "rule"}salt = str(time.time())client = "fanyideskweb"text = input("请输入翻译内容:")AppKey = "ebSeFb%=XZ%T[KZ)c(sy!"sign = hashlib.md5((client+text+salt+AppKey).encode('utf-8')).hexdigest()data = {"i": text, "from": "AUTO", "to": "AUTO", "smartresult": "dict", "client": client, "salt": salt, "sign": sign, "doctype": "json", "version": "2.1", "keyfrom": "fanyi.web", "action": "FY_BY_CLICKBUTTION", "typoResult": "false"}headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36", "Referer":"/?keyfrom=dict2.index", "Cookie":"OUTFOX_SEARCH_USER_ID_NCOO=1082072868.6526275; OUTFOX_SEARCH_USER_ID=2072418438@218.82.240.196; YOUDAO_EAD_UUID=800e3e66-ce9f-442d-adbf-9b3979a21a3e; _ntes_nnid=2fe3d5c70463d0c7d9cb34cd85f28f28,1526368710759; fanyi-ad-id=44881; fanyi-ad-closed=1; P_INFO=tige112@|1527857737|2|mail163|11&19|shh&1527852495&youdaodict_client#shh&null#10#0#0|&0|youdaodict_client&mail163|tige112@; JSESSIONID=abclAXKrY2C2GhDODT_ow; DICT_LOGIN=8||1527913051232; DICT_FORCE=true; DICT_UGC=be3af0da19b5c5e6aa4e17bd8d90b28a|; ___rl__test__cookies=1527913197589"}response = requests.post(url=url,params=params,data=data,headers=headers)pprint(response.json())

如果觉得《破解有道翻译反爬虫机制》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。