后端开发|Python教程
Python,电影天堂
后端开发-Python教程
Python2.7Mac OS
e讯营销下载站源码整站完整版,ubuntu无效目标版本,爬虫多级洁面,php ord,seo超链接lzw
抓取的是电影天堂里面最新电影的页面。链接地址: /html/gndy/dyzz/index.html
手机真伪小程序查询源码,j1900 ubuntu,java爬虫入门到,党建Php开源,纯静态seolzw
获取页面的中电影详情页链接
86西游记 源码,vscode 命令行设置,ubuntu 扫描磁盘,tomcat p12,python 爬虫 时间,简洁 php 论坛,达州专业seo排名优化,简约式网站源码,帝国友情链接修改模板lzw
import urllib2import osimport reimport string# 电影URL集合movieUrls = []# 获取电影列表def queryMovieList(): url = /html/gndy/dyzz/index.html conent = urllib2.urlopen(url) conent = conent.read() conent = conent.decode(gb2312,ignore).encode(utf-8,ignore) pattern = pile (
.*?>
+(.*?)
抓取详情页中的电影数据
def queryMovieInfo(movieUrls): for index, item in enumerate(movieUrls): print(电影URL: + item) conent = urllib2.urlopen(item) conent = conent.read() conent = conent.decode(gb2312,ignore).encode(utf-8,ignore) movieName = re.findall(r
(.*?)
, conent, re.S) if (len(movieName) > 0): movieName = movieName[0] + "" # 截取名称 movieName = movieName[movieName.find("《") + 3:movieName.find("》")] else: movieName = "" print("电影名称: " + movieName.strip()) movieContent = re.findall(r
(.*?),conent , re.S) pattern = pile((.*?)
(.*?)
0): movieInfo = movieInfo[0]+\ # 删除
标签 movieInfo = movieInfo.replace("
","") # 根据 ◎ 符号拆分 movieInfo = movieInfo.split(◎) else: movieInfo = "" print("电影基础信息: ") for item in movieInfo: print(item) # 电影海报 pattern = pile(\, re.S) movieImg = re.findall(pattern,movieContent[0]) if (len(movieImg) > 0): movieImg = movieImg[0] else: movieImg = "" print("电影海报: " + movieImg) pattern = pile(
执行抓取
if __name__==\__main__: print("开始抓取电影数据"); queryMovieList() print(len(movieUrls)) queryMovieInfo(movieUrls) print("结束抓取电影数据")
总结
学好正则表达式很重要,很重要,很重要!!!! Python的语法好有感觉, 对比Java …
如果觉得《Python抓取电影天堂电影信息的代码》对你有帮助,请点赞、收藏,并留下你的观点哦!
- 网友评论
-
网友评论仅供其表达个人看法,并不表明网站立场。