失眠网 > python爬虫xpath提取数据_python爬虫三大解析库之XPath解析库通俗易懂详讲

python爬虫xpath提取数据_python爬虫三大解析库之XPath解析库通俗易懂详讲

时间：2022-12-30 12:03:22

@(这里写自定义目录标题)

使用XPath解析库

1.简介

??XPath(全称XML Path Languang)，即XML路径语言，是一种在XML文档中查找信息的语言。适用于XML和HTML文档的搜索。

??优点：提供了非常简洁明了的路径选择表达式。还提供了超过100个内建函数，可以匹配大部分的节点。

??官网：/TR/xpath/

??准备工作：需要安装lxml库。

2.常用规则

表达式

功能

nodename

选取此节点的所有子节点

从当前节点选取直接子节点

从当前节点选取直接子孙节点

选取当前节点

选取当前节点的父节点

选取属性

3.etree模块解析网页简介

??etree是lxml库中的函数，可以自动修正HTML文本。下面是两种导入方法：

??直接读取网页代码进行解析：

from lxml import etree

text = '''

HTML文本

'''

# 将HTML文本转化为可以用etree解析的对象，

html = etree.HTML(text) # 结果是bytes类型，如果需要文本输出，则需要用decode()转码为Unicode编码

??读取文本文件进行解析(这里既会自动修正文件，又会补充DOCTYPE声明)：

from lxml import etree

html = etree.parse('文本文件路径/文本文件名字.html',etree.HTMLParse()) # 结果是bytes类型，如果需要文本输出，则需要用decode()转码为Unicode编码

??用tostring()方法即可输出修正后的HTML代码。

4.选取所有节点，子节点和父节点

(1)选取所有节点

??一般用//开头的XPath规则，就会选择从当前节点开始的所有子孙节点，也就是所有节点。所以要匹配所有的节点代码如下：

a = html.xpath('//*') # 选取所有的节点

b = html.xpath('//a') # 选取所有的a节点,是一个例子

??这里的a和b，也就是xpath方法的返回值是一个列表，每个元素是Element类型，后面跟着节点的名称，是一个可迭代对象。要取出某一个对象，就需要用处理列表的方法进行。

(2)选取子节点

??选取子节点只需要在后面加上/节点名称(选择直接子节点，也就是与其相邻的第一个子节点)，如果直接子节点没有就会报错，或者//节点名称(选择所有子孙节点)，例子如下：

c = html.xpath('//li/a') # 选取li节点的直接a子节点

d = html.xpath('//li//a') # 选取li节点的所有a子节点

(3)选取父节点

??获取某个节点的父节点有两个方法，一个是用..，另一个是用parent::。

同理，如果没有父节点，就会报错，例子如下：

e = html.xpath('//li/../a') # 选取li节点的父节点下的a节点

f = html.xpath('//li/parent::/a') # 选取li节点的父节点下的直接a节点

g = html.xpath('//li/parent::*/a') # 选取li节点的父节点下的所有a节点

5.属性匹配，文本获取和属性多值匹配

(1)属性匹配

??在选取节点的时候，[emailprotected]，用[@属性名="属性值"]进行实现，例子如下：

s = html.xpath('//li[@class="ming"]') # 选取属性值class="ming"的所有li节点

??要注意的是里面的括号和外面的括号尽量一个用双引号，一个用单引号。

(2)文本获取

??我们用Xpath中的text()方法即可获取节点中的文本。要注意的是获取到的数据可能包括换行符‘\n‘。

(3)属性多值匹配

??要是属性有多个值的话，用上面的方法就无法匹配了。需要用到contains()函数，包含两个参数，[emailprotected]，例子如下：

# 源代码中为

s1 = html.xpath('//li[contains(@class,"ming1")]') # 选取属性值class="ming1"的所有li节点

s2 = html.xpath('//li[contains(@class,"ming2")]') # 选取属性值class="ming2"的所有li节点

6.属性获取和多属性匹配

(1)属性获取

s = html.xpath('[emailprotected]]') # 获取所有li节点下的直接a子节点的href属性

(2)多属性匹配

??有时候需要根据多个属性值确定一个节点，就需要同时匹配多个属性。要用and进行连接，可以把contains(@属性名,"属性名")[emailprotected]="属性值"混合使用，例子如下：

# 选取所有属性值class="a"和_target="ming"的li节点下的所有a节点的href属性

two_s = html.xpath('//li[contains(@class,"a") and @_target="ming"][emailprotected]')

7.按次序选择

??有时候选择到的某些属性可能同时匹配了多个节点，但是要想得到其中的某一个节点，该如何获取呢？可以用中括号传入索引的方法获取特定次序的节点。下面是一些常用方法的总结：

方法

功能

[n]

选取第n个节点，序号是以1开头的

[last()]

选取最后一个节点

[position() < n]

选取位置小于n的节点，这里可以用算术运算符进行选择

[last() - n]

选取倒数第n+1个节点，由于last()是倒数第一个，则last() - n就是倒数第n+1个

8.节点轴选择

??由于网页代码是一个DOM树，因此可以用相对的位置进行选择节点的子节点，兄弟节点，父节点或者祖先节点等。python的节点轴选择常用的如下：

节点轴

选择节点

ancestor:: *

获取所有祖先节点

ancestor::条件

获取指定条件的祖先节点

attribute:: *

获取节点的所有属性

attribute::属性名

获取节点的指定属性

child:: *

获取所有子节点

child::条件

获取指定条件的子节点

descendent:: *

获取所有的子孙节点

descendent::条件

获取指定条件的子孙节点

following:: *

获取当前节点之后的所有节点

following:: *[n]

获取当前节点之后的第n个节点

following-sibing:: *

获取当前节点之后的所有同级节点

following-sibing::条件

获取当前节点之后指定条件的所有同级节点

9.开发者工具查看xpath选择器路径

??用F12打开开发者工具，按才Copy->Copy Xpath就可以把该段代码的XPath路径代码复制下来，很方便。

原文：/ITXiaoAng/p/11958605.html

如果觉得《python爬虫xpath提取数据_python爬虫三大解析库之XPath解析库通俗易懂详讲》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。