失眠网 > python爬虫入门（简单爬虫案例）

python爬虫入门（简单爬虫案例）

时间：2022-07-10 02:47:15

相关推荐

python爬虫入门（简单爬虫案例）

一、工具：

pycharm，python3.7

二、爬虫的过程：

1.发起请求：通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应

2.获取响应内容：如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型

3.解析内容：得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理

4.保存数据：保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件

三、简单案例：

import requestsreq=requests.get('') #请求CSDN首页print(req) #打印请求结果的状态码print(req.content) #打印请求到的网页源码,content返回的是bytes型也就是二进制的数据。print(req.text) #text返回的是Unicode型的数据。

四、解析源码并保存数据：

from bs4 import BeautifulSoupimport requestsreq=requests.get('') #请求CSDN首页bsobj=BeautifulSoup(req.content,'lxml') #将网页源码构造成BeautifulSoup对象，方便操作a_list=bsobj.find_all('a') #获取网页中的所有a标签对象text='' # 创建一个空字符串for a in a_list:href=a.get('href') #获取a标签对象的href属性，即这个对象指向的链接地址text+=href+'\n' #加入到字符串中，并换行with open('url.txt','w') as f: #在当前路径下，以写的方式打开一个名为'url.txt'，如果不存在则创建f.write(text) #将text里的数据写入到文本中print("完成")

结果：

如果觉得《python爬虫入门（简单爬虫案例）》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。