失眠网 > One Piece 海贼王动漫壁纸 Python 爬取！

One Piece 海贼王动漫壁纸 Python 爬取！

时间：2023-08-12 19:24:15

我知道没有图片你们是不会看下去的...

日本文化输出非常厉害，比如说动漫，火影忍者的完整让不少人都感叹：“爷青结”，当然还有入土都难以完结的动漫，比如名侦探河南，不对，手抖了，柯南，当然还有下面我们要爬取的动漫壁纸，海贼王ONE PIECE（ワンピース）！

网站分析

随意百度搜索找的一个网站！

目标网址：

/bizhi/one_piece_t571/

很明显，一个列表页，一共有24个链接，对应的24个图片，可惜只有缩略图！

所以，从列表页应该是获取不到大图的图片地址，考虑从内页获取！

继续观察列表页路径地址：

/bizhi/one_piece_t571/index_2.html

很明显的数字id型列表页，知晓总的列表页数目，就可以构造访问了！

当然需要注意的是，首页的列表页即为入口页，构造访问路径的时候用一个判断处理就可以实现了！

代码编写

引用库

importrequests,timefrom lxml import etree

列表链接源码

列表链接xpath获取

hrefs=tree.xpath('//ul[@class="il"]/li/div[@class="il_img"]/a/@href')

详情页图片源码

详情页图片链接xpath获取

img_url=tree.xpath('//img[@id="imgis"]/@src')[0]

第一版参考：

# one_piece 天堂图片网图片采集# /bizhi/one_piece_t571/index_2.html# 1105 by 微信：huguo00289# -*- coding: UTF-8 -*-import requests,timefrom lxml import etreedef get_imghrefs(url):# url = "/bizhi/one_piece_t571/index_2.html"headers={"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}response=requests.get(url=url,headers=headers,timeout=6)print(response.status_code)html=response.content.decode('utf-8')tree=etree.HTML(html)hrefs=tree.xpath('//ul[@class="il"]/li/div[@class="il_img"]/a/@href')print(len(hrefs))print(hrefs)img_hrefs=[]for href in hrefs:href=f'{href}'img_hrefs.append(href)return img_hrefsdef get_img(url):#url="/bizhi/one_piece_v36640/pic_599277.html"headers = {"user-agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}response = requests.get(url=url, headers=headers, timeout=6)print(response.status_code)html = response.content.decode('utf-8')tree = etree.HTML(html)img_url=tree.xpath('//img[@id="imgis"]/@src')[0]img_url =f'https:{img_url}'imgname=img_url.split('/')[-1]print(img_url,imgname)img=img_url,imgnamereturn imgdef down_img(img):# img_url="https://img-/img/bizhi/pre/06/21/one_piece-005.jpg"# imgname="one_piece-005.jpg"img_url=img[0]imgname=img[1]headers = {"user-agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}r = requests.get(url=img_url, headers=headers, timeout=6)with open(imgname,'wb') as f:f.write(r.content)print(f">> 下载 {imgname} 图片成功！")def main():url="/bizhi/one_piece_t571/index_2.html"img_hrefs=get_imghrefs(url)for img_href in img_hrefs:img=get_img(img_href)down_img(img)time.sleep(1)if __name__=='__main__':main()

第二版类class 参考：

# one_piece 天堂图片网图片采集# /bizhi/one_piece_t571/index_2.html# 1105 by 微信：huguo00289# -*- coding: UTF-8 -*-import requests,time,osfrom lxml import etreeimport threadingclass One():def __init__(self,url,pagenum):self.headers = {"user-agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}self.url=urlself.pagenum=pagenumpathname=url.split('/')[-2]self.path=f'{pathname}/'os.makedirs(self.path,True)def get_img_herfs(self):for page in range(1,self.pagenum+1):if page==1:url=self.urlelse:url=f'{self.url}index_{page}.html'self.get_imghrefs(page,url)def get_imghrefs(self,page,url):print(f">> 正在爬取第{page}页链接：{url}")response=requests.get(url=url,headers=self.headers,timeout=6)html=response.content.decode('utf-8')tree=etree.HTML(html)hrefs=tree.xpath('//ul[@class="il"]/li/div[@class="il_img"]/a/@href')print(len(hrefs))print(hrefs)self.thread_get_imgs(page,hrefs)def thread_get_imgs(self,page,hrefs):threadings=[]for href in hrefs:href=f'{href}'t=threading.Thread(target=self.get_img,args=(href,page))threadings.append(t)t.start()for x in threadings:x.join()print("多线程下载图片完成")def get_img(self,url,page):response = requests.get(url=url, headers=self.headers, timeout=6)html = response.content.decode('utf-8')time.sleep(1)tree = etree.HTML(html)img_url=tree.xpath('//img[@id="imgis"]/@src')[0]img_url =f'https:{img_url}'img_name=img_url.split('/')[-1]img_name=f'{page}_{img_name}'print(img_url,img_name)self.down_img(img_url,img_name)def down_img(self,img_url,img_name):r = requests.get(url=img_url, headers=self.headers, timeout=6)with open(f'{self.path}{img_name}','wb') as f:f.write(r.content)print(f">> 下载 {img_name} 图片成功！")def main():url="/bizhi/one_piece_t571/"pagenum=12spider=One(url,pagenum)spider.get_img_herfs()if __name__=='__main__':main()

该网站没有反爬，适合新手学习参考，注意设置time.sleep，减轻服务器压力！

附经典语录

1.路飞——我们是伙伴啊！

2.索隆——假如连自己的船长都保护不了，还谈何野心！

3.娜美——在他的心碎掉之前，我想赶快见到他，成为他的力量！

4.乌索普——不在这里全力奋战的话，根本没有资格和他们搭同一艘船，也不可能和他们一样真心的开怀大笑！

5.山治——我从小就被教导不能踢女人，所以就算会没命，我也不能踢女人！

6.弗兰奇——我是已经死过一次的人了，为了让草帽他们活着从这里离开，再死一次我也无所谓！

7.罗宾——我想……我想要活下去！！把我也一起带到海上吧！

8.乔巴——以前我想变成人类，是因为想有同伴，现在我想变成能够帮到路飞的怪物!

9.布鲁克——从今天开始，我的性命交于路飞船长！决不拖大家后腿！粉身碎骨，肝脑涂地！

不妨加入到内容制造者的收割狂欢中..