网络爬虫:
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
以上是网络爬虫的百度,下面开始介绍使用Python进行网络爬虫来获取数据。
用来获取新冠肺炎的实时数据。
使用的工具PyCharm
新建Python
文件,命名为get_data
使用爬虫最常用的request
模块
第一部分:
获取网页信息:
import requestsurl = "/act/newpneumonia/newpneumonia"response = requests.get(url)
第二部分:
可以观察数据的特点:
数据包含在script
标签里,使用xpath
来获取数据。
导入一个模块from lxml import etree
生成一个html
对象并且进行解析
可以得到一个类型为list
的内容,使用第一项就可以得到全部内容
接下来首先获取component
的内容,这时使用json
模块,将字符串类型转变为字典(Python
的数据结构)
为了获取国内的数据,需要在component
中找到caseList
接下来上代码:
from lxml import etreeimport json# 生成HTML对象htm
如果觉得《大数据获取案例:Python网络爬虫实例》对你有帮助,请点赞、收藏,并留下你的观点哦!