失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > Python利用Phantomjs抓取渲染JS后的网页

Python利用Phantomjs抓取渲染JS后的网页

时间:2023-04-16 13:21:38

相关推荐

Python利用Phantomjs抓取渲染JS后的网页

后端开发|Python教程

python 入门,python渲染,python,抓取

后端开发-Python教程

最近需要爬取某网站,无奈页面都是JS渲染后生成的,普通的爬虫框架搞不定,于是想到用Phantomjs搭一个代理。

Python调用Phantomjs貌似没有现成的第三方库(如果有,请告知小2),漫步了一圈,发现只有pyspider提供了现成的方案。

简单试用了一下,感觉pyspider更像一个为新手打造的爬虫工具,好比一个老妈子,有时无微不至,有时喋喋不休。

轻巧的小工具应该更受人喜爱,我也怀着一点私心,可以带着我最爱的BeautifulSoup一块儿用,而不用再学PyQuery(pyspider用来解析HTML),更不用忍受浏览器写Python的糟糕体验(偷笑)。

所以花了一个下午的时间,把pyspider当中实现Phantomjs代理的部分拆了出来,独立成一个小的爬虫模块,希望大家会喜欢(感谢binux!)。

php vr源码,vscode隐藏某些后缀,ubuntu 桌面判断,升级tomcat之后乱码,sqlite3文件怎么看,爬虫 vip,php获取上传文件的大小,沈阳seo优化排名报价,有没有免费网站能下载工具,模板购买lzw

准备工作

cocos js 斗地主源码,ubuntu桌面启动日志,tomcat7线程超时,爬虫弹出窗口,php 框架程序结构,页码 seolzw

你当然要有Phantomjs,废话!(Linux下最好用supervisord守护,必须保持抓取的时候Phantomjs一直处于开启状态)

某软件官网源码,蓝色的vscode,gone ubuntu,tomcat提示乱码,本地的sqlite如何同步,discuz插件怎么安装,web前端自动化测试框架,爬虫获取网站数据的代码,去掉html php,临夏seo优化方案,网站flash动画,网页版棋牌游戏原码,时尚地方门户discuz模板lzw

用项目路径下的phantomjs_fetcher.js启动:phantomjs phantomjs_fetcher.js [port]

安装tornado依赖(使用了tornado的httpclient模块)

调用是超级简单的

from tornado_fetcher import Fetcher# 创建一个爬虫>>> fetcher=Fetcher( user_agent=phantomjs, # 模拟浏览器的User-Agent phantomjs_proxy=http://localhost:12306, # phantomjs的地址 poolsize=10, # 最大的httpclient数量 async=False # 同步还是异步 )# 开始连接Phantomjs的代理,可以渲染JS!>>> fetcher.phantomjs_fetch(url)# 渲染成功后执行额外的JS脚本(注意用function包起来!)>>> fetcher.phantomjs_fetch(url, js_script=function(){setTimeout("window.scrollTo(0,100000)}", 1000))

如果觉得《Python利用Phantomjs抓取渲染JS后的网页》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。