失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 大数据获取案例:Python网络爬虫实例

大数据获取案例:Python网络爬虫实例

时间:2021-02-05 21:32:36

相关推荐

大数据获取案例:Python网络爬虫实例

网络爬虫:

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

以上是网络爬虫的百度,下面开始介绍使用Python进行网络爬虫来获取数据。

用来获取新冠肺炎的实时数据。

使用的工具PyCharm

新建Python文件,命名为get_data

使用爬虫最常用的request模块

第一部分:

获取网页信息:

import requestsurl = "/act/newpneumonia/newpneumonia"response = requests.get(url)

第二部分:

可以观察数据的特点:

数据包含在script标签里,使用xpath来获取数据。

导入一个模块from lxml import etree

生成一个html对象并且进行解析

可以得到一个类型为list的内容,使用第一项就可以得到全部内容

接下来首先获取component的内容,这时使用json模块,将字符串类型转变为字典(Python的数据结构)

为了获取国内的数据,需要在component中找到caseList

接下来上代码:

from lxml import etreeimport json# 生成HTML对象htm

如果觉得《大数据获取案例:Python网络爬虫实例》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。