失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 我的爬虫(一)之抓取优美图库图片

我的爬虫(一)之抓取优美图库图片

时间:2022-01-21 11:57:28

相关推荐

我的爬虫(一)之抓取优美图库图片

我的爬虫实战(一)之抓取优美图库

羞羞图片…

文章目录

我的爬虫实战(一)之抓取优美图库 羞羞图片...前言`提示:这里可以添加本文要记录的大概内容:` emmm,这是一篇小白学了一段时间后开始用博客记录学习过程的文章。记录从现在开始。 对于爬虫来说,可能大部分人都不陌生,爬虫爬虫,爬的好吃国家饭嘛,啊呸,不能这样想。大家平常点开网页看见一些好看的图片,是不是有下载的冲动,可是如果一个一个点击图片下载,费时又费力,那么这个时候,就轮到我们今天的主角登场了——自动爬取下载网络图片。一、爬虫是什么?二、使用步骤1.引入库2.选择网站2.读入数据4.效果展示总结

前言

提示:这里可以添加本文要记录的大概内容:

emmm,这是一篇小白学了一段时间后开始用博客记录学习过程的文章。记录从现在开始。

对于爬虫来说,可能大部分人都不陌生,爬虫爬虫,爬的好吃国家饭嘛,啊呸,不能这样想。大家平常点开网页看见一些好看的图片,是不是有下载的冲动,可是如果一个一个点击图片下载,费时又费力,那么这个时候,就轮到我们今天的主角登场了——自动爬取下载网络图片。

提示:以下是本篇文章正文内容,下面案例可供参考

一、爬虫是什么?

网络爬虫就是一种按照一定的规则、自动的抓取万维网信息的脚本或者程序,简单来说:爬虫是用事先写好的程序去抓取网络上的数据,这样的程序叫爬虫

二、使用步骤

1.引入库

代码如下(示例):

import requestsfrom bs4 import BeautifulSoupimport time

这里的time库是为了防止我们的请求被服务端终端而导入的,作用呢就是让程序慢点爬,emmm是这样的吧。如果不是请大神指正。

2.选择网站

我们这里选择的优美图库,咳咳绝对不是你们想的眼那样,我是单纯记录学习过程,吧。

之后呢,要想爬取数据,首先查看网页源代码如果源代码里有我们想要获取的内容,我们就可以直接进行爬取,如果没有的话,就得使用fiddler等抓包工具了,对于这个抓包工具,我会在后面的系列中进行更新啦。

然后我们点击网页空白处点击查看源代码:

在这里检查过之后,确认网页源代码里有我们想要的内容,那么ok,我们进行爬虫脚本编写。

2.读入数据

代码如下(示例):

获取网页内容,并运用Beautiful对文本进行解析。

url = '/meinvtupian/xingganmeinv/'resp = requests.get(url=url)resp.encoding = 'utf-8'#解析数据main_page = BeautifulSoup(resp.text, 'html.parser')alist = main_page.find('ul', class_="pic-list after").find_all('img')

获取下载链接,保存图片到文件。

#获取下载链接for i in alist:time.sleep(1)herf = (i.get('data-src'))# print(herf)#请求图片,保存文件img_resp = requests.get(url=herf)img_name = herf.split("/")[-1]print(img_name)with open('img/' + img_name, mode='wb') as fp:fp.write(img_resp.content)print('over')

有人可能会对一下代码产生疑问,我来解答一下:

img_resp = requests.get(url=herf)img_name = herf.split("/")[-1]print(img_name)with open('img/' + img_name, mode='wb') as fp:fp.write(img_resp.content)

这里呢,我们对图片的url发起请求获得的内容呢就会是一堆字节,这些字节就组成了图片,我们想要保存的话就非常简单,我们只需要保存图片的字节,就相当于保存了图片。

全代码

import requestsfrom bs4 import BeautifulSoupimport timeurl = '/meinvtupian/xingganmeinv/'resp = requests.get(url=url)resp.encoding = 'utf-8'#解析数据main_page = BeautifulSoup(resp.text, 'html.parser')alist = main_page.find('ul', class_="pic-list after").find_all('img')#获取下载链接for i in alist:time.sleep(1)herf = (i.get('data-src'))# print(herf)#请求图片,保存文件img_resp = requests.get(url=herf)img_name = herf.split("/")[-1]print(img_name)with open('img/' + img_name, mode='wb') as fp:fp.write(img_resp.content)print('over')

4.效果展示

这里我们是新建的一个img文件夹用于存放下载来的图片,现在我们点开文件夹,就可以看到图片啦。

总结

提示:这里对文章进行总结:

例如:以上就是今天要讲的内容,本文仅仅简单的介绍了爬取网站图片的方法,大伙子学会了没有,学会了就等晚上就,诶不对,学会了我们就可以学以致用啦~

如果觉得《我的爬虫(一)之抓取优美图库图片》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。