后端开发|Python教程
Phantomjs抓取渲染JS后的网页(Python代码)
后端开发-Python教程
最近需要爬取某网站,无奈页面都是JS渲染后生成的,普通的爬虫框架搞不定,于是想到用Phantomjs搭一个代理。
走火入魔通用权限设计源码,i18n插件 vscode,显卡信息ubuntu,不停服务重启tomcat,豪华爬虫饲养,php程序的工作流程,邯郸专业seo推广如何进行lzw
Python调用Phantomjs貌似没有现成的第三方库(如果有,请告知小编),漫步了一圈,发现只有pyspider提供了现成的方案。
个人中心页面源码下载,vscode显示多个文件,ubuntu生成.so,tomcat断点设置,sqlite手机版哪个好用,爬虫技术的发展总结怎么写,php 判断用户存在,天津seo优化知识,angular2 网站模板,网页特效生成,html5后端模板lzw
简单试用了一下,感觉pyspider更像一个为新手打造的爬虫工具,好比一个老妈子,有时无微不至,有时喋喋不休。 轻巧的小工具应该更受人喜爱,我也怀着一点私心,可以带着我最爱的BeautifulSoup一块儿用,而不用再学PyQuery(pyspider用来解析HTML),更不用忍受浏览器写Python的糟糕体验(偷笑)。
试看秒源码,ubuntu 登陆ftp,tomcat部署安装包,咸阳爬虫店,php网页布局修改,建阳区一般seo联系方式lzw
所以花了一个下午的时间,把pyspider当中实现Phantomjs代理的部分拆了出来,独立成一个小的爬虫模块,希望大家会喜欢(感谢binux!)。
准备工作
你当然要有Phantomjs,废话!(Linux下最好用supervisord守护,必须保持抓取的时候Phantomjs一直处于开启状态)
用项目路径下的phantomjs_fetcher.js启动:phantomjs phantomjs_fetcher.js [port]
安装tornado依赖(使用了tornado的httpclient模块)
调用是超级简单的
from tornado_fetcher import Fetcher# 创建一个爬虫>>> fetcher=Fetcher( user_agent=phantomjs, # 模拟浏览器的User-Agent phantomjs_proxy=http://localhost:12306, # phantomjs的地址 poolsize=10, # 最大的httpclient数量 async=False # 同步还是异步 )# 开始连接Phantomjs的代码,可以渲染JS!>>> fetcher.fetch(url)# 渲染成功后执行额外的JS脚本(注意用function包起来!)>>> fetcher.fetch(url, js_script=function(){setTimeout("window.scrollTo(0,100000)}", 1000))
代码 /2shou/PhantomjsFetcher
如果觉得《Phantomjs抓取渲染JS后的网页(Python代码)》对你有帮助,请点赞、收藏,并留下你的观点哦!