失眠网 > 我的爬虫（一）之抓取优美图库图片

我的爬虫（一）之抓取优美图库图片

时间：2022-01-21 11:57:28

相关推荐

我的爬虫（一）之抓取优美图库图片

我的爬虫实战（一）之抓取优美图库
羞羞图片…

文章目录

我的爬虫实战（一）之抓取优美图库羞羞图片...前言`提示：这里可以添加本文要记录的大概内容：` emmm，这是一篇小白学了一段时间后开始用博客记录学习过程的文章。记录从现在开始。对于爬虫来说，可能大部分人都不陌生，爬虫爬虫，爬的好吃国家饭嘛，啊呸，不能这样想。大家平常点开网页看见一些好看的图片，是不是有下载的冲动，可是如果一个一个点击图片下载，费时又费力，那么这个时候，就轮到我们今天的主角登场了——自动爬取下载网络图片。一、爬虫是什么？二、使用步骤1.引入库2.选择网站2.读入数据4.效果展示总结

前言

`提示：这里可以添加本文要记录的大概内容：`
emmm，这是一篇小白学了一段时间后开始用博客记录学习过程的文章。记录从现在开始。
对于爬虫来说，可能大部分人都不陌生，爬虫爬虫，爬的好吃国家饭嘛，啊呸，不能这样想。大家平常点开网页看见一些好看的图片，是不是有下载的冲动，可是如果一个一个点击图片下载，费时又费力，那么这个时候，就轮到我们今天的主角登场了——自动爬取下载网络图片。

提示：以下是本篇文章正文内容，下面案例可供参考

一、爬虫是什么？

网络爬虫就是一种按照一定的规则、自动的抓取万维网信息的脚本或者程序，简单来说：爬虫是用事先写好的程序去抓取网络上的数据，这样的程序叫爬虫

二、使用步骤

1.引入库

代码如下（示例）：

import requestsfrom bs4 import BeautifulSoupimport time

这里的time库是为了防止我们的请求被服务端终端而导入的，作用呢就是让程序慢点爬，emmm是这样的吧。如果不是请大神指正。

2.选择网站

我们这里选择的优美图库，咳咳绝对不是你们想的眼那样，我是单纯记录学习过程，吧。

之后呢，要想爬取数据，首先查看网页源代码如果源代码里有我们想要获取的内容，我们就可以直接进行爬取，如果没有的话，就得使用fiddler等抓包工具了，对于这个抓包工具，我会在后面的系列中进行更新啦。

然后我们点击网页空白处点击查看源代码：

在这里检查过之后，确认网页源代码里有我们想要的内容，那么ok，我们进行爬虫脚本编写。

2.读入数据

代码如下（示例）：

获取网页内容，并运用Beautiful对文本进行解析。

url = '/meinvtupian/xingganmeinv/'resp = requests.get(url=url)resp.encoding = 'utf-8'#解析数据main_page = BeautifulSoup(resp.text, 'html.parser')alist = main_page.find('ul', class_="pic-list after").find_all('img')

获取下载链接，保存图片到文件。

#获取下载链接for i in alist:time.sleep(1)herf = (i.get('data-src'))# print(herf)#请求图片，保存文件img_resp = requests.get(url=herf)img_name = herf.split("/")[-1]print(img_name)with open('img/' + img_name, mode='wb') as fp:fp.write(img_resp.content)print('over')

有人可能会对一下代码产生疑问，我来解答一下：

img_resp = requests.get(url=herf)img_name = herf.split("/")[-1]print(img_name)with open('img/' + img_name, mode='wb') as fp:fp.write(img_resp.content)

这里呢，我们对图片的url发起请求获得的内容呢就会是一堆字节，这些字节就组成了图片，我们想要保存的话就非常简单，我们只需要保存图片的字节，就相当于保存了图片。

全代码

import requestsfrom bs4 import BeautifulSoupimport timeurl = '/meinvtupian/xingganmeinv/'resp = requests.get(url=url)resp.encoding = 'utf-8'#解析数据main_page = BeautifulSoup(resp.text, 'html.parser')alist = main_page.find('ul', class_="pic-list after").find_all('img')#获取下载链接for i in alist:time.sleep(1)herf = (i.get('data-src'))# print(herf)#请求图片，保存文件img_resp = requests.get(url=herf)img_name = herf.split("/")[-1]print(img_name)with open('img/' + img_name, mode='wb') as fp:fp.write(img_resp.content)print('over')