失眠网 > 抓取优美图库图片

抓取优美图库图片

时间：2021-03-03 03:20:04

相关推荐

抓取优美图库图片

在爬虫下载图片时，右下角会有一个进度条，pycharm会对所有内容做一个索引为了快速查找文件中的内容，下载的文件是新增进来的，也会加载索引，在下载东西特别多的时候，运行会变得特别慢，但是对于这种下载的图片没有表添加索引，操作：点击文件在下面找到Mark dirctory as ->exculde这时做索引事就不会对这个文件做索引了

#1.拿到主页面的源代码，提取子页面链接地址，herf#通过herf拿子页面的内容，丛子页面找到图片的下载地址 img标签里面的src#3.下载图片import requestsfrom bs4 import BeautifulSoupimport time#为了防止服务器把我干掉让它休息一会儿url="/bizhitupian/weimeibizhi/"resp=requests.get(url)resp.encoding='utf-8' # 处理乱码转换为对应的编码，不然就是乱码# print(resp.text)#把源代码交给bsmain_page=BeautifulSoup(resp.text,"html.parser")#把源代码放进来，，不想看到一大堆警告，把html.parser放进来#范围第一次缩小# main_page.find("div",class_ = "TypeList")#在源代码中找到“div”，并且class等于TypeListalist=main_page.find("div",class_= "TypeList").find_all("a")#精简一下# print(alist)for a in alist:#卑微网站，不让爬，把页面源代码的域名直接去掉了，需要进入网站拼接一下字符串# print("/"+a.get('href')) #拿到子页面的链接href="/"+a.get('href') #直接通过get就可以拿到属性值# print(href)# 拿到子页面的源代码child_page_resp=requests.get(href)child_page_resp.encoding='utf-8'child_page_text=child_page_resp.text#从子页面中拿到图片的下载路径，把源代码交给beautifulSoup#从子页面拿到下载途径child_page=BeautifulSoup(child_page_text,"html.parser")p=child_page.find("p",align="center") #从p标签里面找img，这是img就只有一个，并且align等于centerimg=p.find("img")# print(img.get("src"))src=img.get("src")#下载图片img_resp=requests.get(src)# img_resp.content #这里拿到的是字节，把拿到的所有字节都写到一个文件里面去，这时文件就是一图片img_name=src.split("/")[-1] #拿到url中的最后一个/以后的内容with open("photo/"+img_name,mode="wb") as f: #放到photo文件夹里面,要先建一个photo文件夹哈f.write(img_resp.content) #图片内容写入文件print("over！！",img_name)time.sleep(1)print("all over!!")

如果觉得《抓取优美图库图片》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。