失眠网 > 抓取安居客二手房经纪人数据 python爬虫自动翻页

抓取安居客二手房经纪人数据 python爬虫自动翻页

时间：2022-11-28 02:59:14

为什么80%的码农都做不了架构师？>>>

和链接不一样，安居客网站里面没有找到总页数，可能在json里面有，只是我没有找到。基于此能不能做网页的循环爬取呢。能否判断页面读取完毕进行自动翻页？查询了一些资料后得出了如下代码：

import requestsfrom lxml import etreecurrent_url = '/tycoon/p1'headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}allinfo = []def getdata(url):resouce = requests.get(url,headers = headers)resouce.encoding = 'utf-8'selector = etree.HTML(resouce.text)return selectordef claw_data_from_detail_page(selector,j):info = {}str = '//*[@id="list-content"]/div[%s]'%jinfo['person'] = selector.xpath(str+'/div[1]/div/h3/a/text()')[0]info['phone'] = selector.xpath(str+'/div[2]/text()')[1].strip()return infowhile True:# 下载页面page = getdata(current_url)print("正在爬取" + current_url)# 根据我们定义的selector选择感兴趣的页面元素列表data_list = page.xpath('//*[@id="list-content"]/div')# 如果这个页面选择不到元素了，说明我们已经读取完了# 也可以计算页面元素数量的最大值，比如你第一页爬到了10个元素# 当你到了第N页，你只爬到了2个，说明这就是最后一页了if len(data_list) == 0:break# 对每一个元素，我们把它放进另一个函数中读取i=0for data in data_list:i += 1info = claw_data_from_detail_page(data,i) allinfo.append(info)# 当这一页完成的时候，我们就更新一下当前页面的url地址，# 回到while loop最开始的地方开始下一页end = page.xpath('/html/body/div[6]/div[2]/div[3]/div/i[@class="iNxt"]')if len(end)>0:breakcurrent_url = page.xpath('/html/body/div[6]/div[2]/div[3]/div/a[@class="aNxt"]/@href')[0]print(allinfo)

[caption id="attachment_85" align="alignnone" width="300"]<img src="/wp-content/uploads//12/WX1222-180257-300x91.png" alt="抓取安居客二手房经纪人数据，python爬虫自动翻页" width="300" height="91" class="size-medium wp-image-85" /> 抓取安居客二手房经纪人数据，python爬虫自动翻页[/caption] 注意：

为了快速测试current_url中p1可以修改为p200。这个程序主要是学习在无法得知总的页面数的时候，如何抓取所有页面。

欢迎到我博客吐槽，code有很多不优雅。/dataanalysis/84.html

如果觉得《抓取安居客二手房经纪人数据 python爬虫自动翻页》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。