失眠网 > Python抓取电影天堂电影信息的代码

Python抓取电影天堂电影信息的代码

时间：2021-12-29 08:45:09

相关推荐

Python抓取电影天堂电影信息的代码

后端开发|Python教程

Python,电影天堂

后端开发-Python教程

Python2.7Mac OS

e讯营销下载站源码整站完整版,ubuntu无效目标版本,爬虫多级洁面,php ord,seo超链接lzw

抓取的是电影天堂里面最新电影的页面。链接地址： /html/gndy/dyzz/index.html

手机真伪小程序查询源码,j1900 ubuntu,java爬虫入门到,党建Php开源,纯静态seolzw

获取页面的中电影详情页链接

86西游记源码,vscode 命令行设置,ubuntu 扫描磁盘,tomcat p12,python 爬虫时间,简洁 php 论坛,达州专业seo排名优化,简约式网站源码,帝国友情链接修改模板lzw

import urllib2import osimport reimport string# 电影URL集合movieUrls = []# 获取电影列表def queryMovieList(): url = /html/gndy/dyzz/index.html conent = urllib2.urlopen(url) conent = conent.read() conent = conent.decode(gb2312,ignore).encode(utf-8,ignore) pattern = pile (

.*?>

+(.*?),re.S) items = re.findall(pattern,conent) str = \.join(items) pattern = pile ((.*?).*?(.*?),re.S) news = re.findall(pattern, str) for j in news: movieUrls.append(\+j[0])

抓取详情页中的电影数据

def queryMovieInfo(movieUrls): for index, item in enumerate(movieUrls): print(电影URL: + item) conent = urllib2.urlopen(item) conent = conent.read() conent = conent.decode(gb2312,ignore).encode(utf-8,ignore) movieName = re.findall(r

(.*?)

, conent, re.S) if (len(movieName) > 0): movieName = movieName[0] + "" # 截取名称 movieName = movieName[movieName.find("《") + 3:movieName.find("》")] else: movieName = "" print("电影名称: " + movieName.strip()) movieContent = re.findall(r

(.*?),conent , re.S) pattern = pile((.*?), re.S) movieDate = re.findall(pattern,movieContent[0]) if (len(movieDate) > 0): movieDate = movieDate[0].strip() + \ else: movieDate = "" print("电影发布时间: " + movieDate[-10:]) pattern = pile(

(.*?)

0): movieInfo = movieInfo[0]+\ # 删除

标签 movieInfo = movieInfo.replace("

","") # 根据 ◎ 符号拆分 movieInfo = movieInfo.split(◎) else: movieInfo = "" print("电影基础信息: ") for item in movieInfo: print(item) # 电影海报 pattern = pile(\, re.S) movieImg = re.findall(pattern,movieContent[0]) if (len(movieImg) > 0): movieImg = movieImg[0] else: movieImg = "" print("电影海报: " + movieImg) pattern = pile(.*?, re.S) movieDownUrl = re.findall(pattern,movieContent[0]) if (len(movieDownUrl) > 0): movieDownUrl = movieDownUrl[0] else: movieDownUrl = "" print("电影下载地址：" + movieDownUrl + "") print("------------------------------------------------\n\n\n")

执行抓取

if __name__==\__main__: print("开始抓取电影数据"); queryMovieList() print(len(movieUrls)) queryMovieInfo(movieUrls) print("结束抓取电影数据")

总结

学好正则表达式很重要,很重要,很重要!!!! Python的语法好有感觉, 对比Java …

如果觉得《Python抓取电影天堂电影信息的代码》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。