失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 抓取优美图库图片

抓取优美图库图片

时间:2021-03-03 03:20:04

相关推荐

抓取优美图库图片

在爬虫下载图片时,右下角会有一个进度条,pycharm会对所有内容做一个索引为了快速查找文件中的内容,下载的文件是新增进来的,也会加载索引,在下载东西特别多的时候,运行会变得特别慢,但是对于这种下载的图片没有表添加索引,操作:点击文件在下面找到Mark dirctory as ->exculde这时做索引事就不会对这个文件做索引了

#1.拿到主页面的源代码,提取子页面链接地址,herf#通过herf拿子页面的内容,丛子页面找到图片的下载地址 img标签里面的src#3.下载图片import requestsfrom bs4 import BeautifulSoupimport time#为了防止服务器把我干掉 让它休息一会儿url="/bizhitupian/weimeibizhi/"resp=requests.get(url)resp.encoding='utf-8' # 处理乱码 转换为对应的编码,不然就是乱码# print(resp.text)#把源代码交给bsmain_page=BeautifulSoup(resp.text,"html.parser")#把源代码放进来,,不想看到一大堆警告,把html.parser放进来#范围第一次缩小# main_page.find("div",class_ = "TypeList")#在源代码中找到“div”,并且class等于TypeListalist=main_page.find("div",class_= "TypeList").find_all("a")#精简一下# print(alist)for a in alist:#卑微网站,不让爬,把页面源代码的域名直接去掉了,需要进入网站拼接一下字符串# print("/"+a.get('href')) #拿到子页面的链接href="/"+a.get('href') #直接通过get就可以拿到属性值# print(href)# 拿到子页面的源代码child_page_resp=requests.get(href)child_page_resp.encoding='utf-8'child_page_text=child_page_resp.text#从子页面中拿到图片的下载路径,把源代码交给beautifulSoup#从子页面拿到下载途径child_page=BeautifulSoup(child_page_text,"html.parser")p=child_page.find("p",align="center") #从p标签里面找img,这是img就只有一个,并且align等于centerimg=p.find("img")# print(img.get("src"))src=img.get("src")#下载图片img_resp=requests.get(src)# img_resp.content #这里拿到的是字节,把拿到的所有字节都写到一个文件里面去,这时文件就是一图片img_name=src.split("/")[-1] #拿到url中的最后一个/以后的内容with open("photo/"+img_name,mode="wb") as f: #放到photo文件夹里面,要先建一个photo文件夹哈f.write(img_resp.content) #图片内容 写入文件print("over!!",img_name)time.sleep(1)print("all over!!")

如果觉得《抓取优美图库图片》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。