失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > python爬虫爬取大众点评店铺简介信息

python爬虫爬取大众点评店铺简介信息

时间:2018-08-11 22:01:44

相关推荐

python爬虫爬取大众点评店铺简介信息

python爬虫爬取大众点评店铺简介信息

写作目的:爬取目标大众点评的保护机制应对方法还存在的问题

写作目的:

今天帮朋友一个忙,要爬取一些大众点评上的数据。结果发现大众点评的防爬机制还挺多的,记录一下自己踩的坑。

爬取目标

主要是通过分类和地区爬取店铺简介中的名称,地址,人均价格,各种评价分数和评价数

大众点评的保护机制

主要有两点

1.源码里加入了css反爬机制,主要是字体加密

2.对IP地址的限制,程序自动爬取大概十几页会断一下,目测应该是大众限制了一段时间内单IP访问量不能突破某一阈值。不过因为是爬取简介页面,所以手动验证一下也可以,没有像爬具体页面那样的封IP,有条件的也可以用IP池换IP访问。

应对方法

破解css加密机制参考了Python爬虫如何破解css加密

根据这篇文章建立字典后,对源码中的加密字符进行替换,然后通过正则匹配得到自己想要的部分

tree=etree.HTML(rep)li_list=tree.xpath('//div[@class="content"]/div/ul/li')for li in li_list:title = li.xpath('.//div[@class="tit"]/a/h4/text()')[0]tag = li.xpath('string(.//div[@class="tag-addr"]/a/span)')score = li.xpath('string(.//div[@class="star_score score_50 star_score_sml"]/text()|.//div[@class="star_score score_40 star_score_sml"]/text()|.//div[@class="star_score score_45 star_score_sml"]/text())')comments = li.xpath('string(.//div[@class="comment"]/a[@class="review-num"]/b)')prize = li.xpath('string(.//div[@class="comment"]/a[@class="mean-price"]/b)')address = li.xpath('string(.//div[@class="tag-addr"]/a[@data-click-name="shop_tag_region_click"]/span)')localaddress = li.xpath('string(.//div[@class="tag-addr"]/span)')flavor = li.xpath('string(.//div[@class="txt"]/span[@class="comment-list"]/span[position()=1])')environment = li.xpath('string(.//div[@class="txt"]/span[@class="comment-list"]/span[position()=2])')service = li.xpath('string(.//div[@class="txt"]/span[@class="comment-list"]/span[position()=3])')print(title, tag, score, comments, prize, address, localaddress, flavor, environment, service)with open('大众广州日料.csv', 'a', encoding='utf-8-sig', newline='') as f:writer = csv.writer(f, dialect='excel')writer.writerow([title, tag, score, comments, prize, address, localaddress, flavor, environment, service])

还存在的问题

woff 文件里有的文字数据和顺序都一样,但每个字对应的unicode 码不一样,所以用直接建立的字典会有些错误,想办法完善一下再放出完整代码。

如果觉得《python爬虫爬取大众点评店铺简介信息》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。