推荐专题：

失眠网 > 网络爬虫CSS选择器详细讲解

网络爬虫CSS选择器详细讲解

时间：2020-07-20 22:10:03

相关推荐

网络爬虫CSS选择器详细讲解

网络爬虫CSS选择器详细讲解

前言使用步骤1.解析的HTML代码2.逐层选择节点3.获取文本（string和get_text()）4.获取节点的属性值5.选择单个和多个节点6.通过class和id选择节点（.class #id）：7.选择属性值有多个值的节点（：8.选择指定的多个节点：9.选择包含属性的节点：10.根据属性值选择节点：11.嵌套选择：更多关于CSS选择器用法请参照该链接：/cssref/css_selectors.asp 网络爬虫速查表（多种选择器语法、request常用语法速查表下载）：[/qq_3065/article/details/123338900?spm=1001..3001.5501](/qq_3065/article/details/123338900?spm=1001..3001.5501)

前言

Python拥有大量的解析库，比较常用的有Beautiful Soup、pyquery、parsel等，而它们共同特点是：大部分都支持CSS选择器，所以学会了CSS选择器的用法，就能快速利用各种解析方式提取数据，下面将介绍基于bs4解析库的CSS的常用方法。

使用步骤

1.解析的HTML代码

代码如下（示例）：

html ="""<html><head><title>フィロソフィー</title></head><body><p class="philosophy"><a href="/qq_3065?type=blog" class='marx' id="1">フィロソフィー的个人博客</a></p><p class="C-1 C-2">多个class值的节点</p><p class="C-1">通过.class选择节点</p><p class="p-1"></p><p class="p-2" value="marx"></p><h1><a id="D1">通过#id选择节点</a></h1></body></html>"""from bs4 import BeautifulSoup #导入bs4库soup = BeautifulSoup(html,features='lxml') #选择lxml解析器

2.逐层选择节点

逐层获取的节点：

print(soup.select('html head title')) #打印逐层获取的title节点print(soup.select('.philosophy a'))

输出：

[<title>フィロソフィー</title>][<a class="marx" href="/qq_3065?type=blog" id="1">フィロソフィー的个人博客</a>]

3.获取文本（string和get_text()）

打印节点内的文本（两种方式）：

print(soup.select('html head title')[0].string) #返回节点文本内容print(soup.select('.philosophy a')[0].get_text()) #返回节点文本内容

输出：

フィロソフィーフィロソフィー的个人博客

4.获取节点的属性值

print(soup.select('p')[0]['class']) #获取第一个p节点的class属性值print(soup.select('p a')[0]['href']) #获取第一个p节点下的a节点的href属性值

输出：

['philosophy']/qq_3065?type=blog

5.选择单个和多个节点

print(soup.select('p')) #选择所有的p节点，返回多个p节点的列表print(soup.select('p')[1:]) #选择第二个p节点及后面的p节点print(soup.select('p')[4]) #使用索引选择第五个p节点，返回单个节点

输出：

[<p class="philosophy"><a class="marx" href="/qq_3065?type=blog" id="1">フィロソフィー的个人博客</a></p>, <p class="C-1 C-2">多个属性值的节点</p>, <p class="C-1">通过.class选择节点</p>, <p class="p-1"></p>, <p class="p-2" value="marx"></p>][<p class="C-1 C-2">多个属性值的节点</p>,<p class="C-1">通过.class选择节点</p>,<p class="p-1"></p>,<p class="p-2" value="marx"></p>]<p class="p-2" value="marx"></p>

6.通过class和id选择节点（.class #id）：

通过class属性和id属性选择：

print(soup.select('.C-1')) #选择class="C-1"节点print(soup.select('h1 #D1')) #选择h1节点下的id="D1"的节点

输出：

[<p class="C-1 C-2">多个属性值的节点</p>, <p class="C-1">通过.class选择节点</p>][<a id="D1">通过#id选择节点</a>]

7.选择属性值有多个值的节点（：

选择class属性值为C-1和C-2的节点：

print(soup.select('.C-1.C-2'))

输出：

[<p class="C-1 C-2">多个class值的节点</p>]

8.选择指定的多个节点：

选择class="p-1"的节点和class="p-2"的节点：

print(soup.select('.p-1,.p-2')) #返回包含指定的两个节点的列表

输出：

[<p class="p-1"></p>, <p class="p-2" value="marx"></p>]

9.选择包含属性的节点：

选择class=“philosopy“的节点下包含href属性的节点

soup.select('.philosophy a[href]')

输出：

[<a class="marx" href="/qq_3065?type=blog" id="1">フィロソフィー的个人博客</a>]

10.根据属性值选择节点：

选择value=“marx”的节点

soup.select('p[value="marx"]')

输出：

[<p class="p-2" value="marx"></p>]

11.嵌套选择：

select支持嵌套选择节点

for p in soup.select('p'):print(p.select('a'))

输出：

[<a class="marx" href="/qq_3065?type=blog" id="1">フィロソフィー的个人博客</a>][][][][]

更多关于CSS选择器用法请参照该链接：

/cssref/css_selectors.asp

网络爬虫速查表（多种选择器语法、request常用语法速查表下载）：/qq_3065/article/details/123338900?spm=1001..3001.5501

如果觉得《网络爬虫CSS选择器详细讲解》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

rvest | 网络爬虫初步——使用CSS选择器

2021-07-30

爬虫css选择器如何通过网络爬虫获取网站相关数据 – CSS – 前端 css固定大小

2018-09-04

css选择器爬虫在哪看除了网络爬虫还有哪些方法可以采集数据 – CSS – 前端

2023-01-13

【网络爬虫入门04】彻底掌握BeautifulSoup的CSS选择器

2018-08-20

最近发布

老年女性的健康指南：防止失眠少吃糖和白面包

2024-08-05

探讨失眠可能的诱因

2024-08-05

您知道缓解失眠的九大妙招吗

2024-08-04

失眠症状表现怎样

2024-08-04

奇招大揭秘：试试‘不睡觉法’ 实现防失眠神功！

2024-08-04

失眠是因为有恐惧心若无所求也无所得无所得也就没有恐惧心理

2024-08-04

短暂性的失眠是按照病程来分的

2024-08-04

心烦易怒失眠口苦？肝火旺盛！饮食禁忌需知以免火上浇油！

2024-08-04

老年人失眠的治疗方法与建议

2024-08-04

抑郁症导致头痛失眠该怎么办

2024-08-04

推荐专题

熬夜时间长会失眠吗男生治疗更年期失眠激素类药失眠的吃法蓝莓改善失眠买房后悔抑郁失眠帕金治疗失眠哮喘与失眠丑时失眠中医心慌晚上失眠哪几种中药可调理失眠播放失眠术失眠的表现不包括同济医院失眠科的失眠香囊突然整夜失眠是急性失眠吗抑郁症失眠白天怎么过