失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > Python | 初识爬虫框架Scrapy

Python | 初识爬虫框架Scrapy

时间:2021-07-25 14:22:02

相关推荐

Python | 初识爬虫框架Scrapy

一、前言

今天给大家分享的是,Python里的爬虫框架Scrapy学习,包含python虚拟环境的搭建、虚拟环境的使用、Scrapy安装方法详解、Scrapy基本使用、Scrapy项目目录及内容基本介绍,let's go!

二、Python爬虫框架Scrapy简介

推荐查看Scrapy中文帮助文档:

三、看代码,边学边敲边记虚拟环境、Scrapy框架

1. 新建一个虚拟环境

下面 操作之前你需要准备好:

(1) 你的python版本是3.x,最好系统里只有一个python环境,后面所有学习笔记都基于py3的。

(2)python环境里先安装virtualenv模块,基本方法pip install virtualenv 。

(3)选择好虚拟环境的安装目录(我选的是H盘目录下的env文件夹,建议你选的目录路径里最好不要有中文)。

安装完成后再自己选择的目录下会多出一个文件夹(虚拟环境),我这里为H:\env\spiderenv,后面所有爬虫学习过程中需要的模块、接口都将pip(安装)在里面。

2. 打开虚拟环境,安装Scrapy框架

进入到目录H:\env\spiderenv\Scripts(我的虚拟环境目录),按住shift+鼠标右键,打开powershell或者cmd(如果是powershell就先输入cmd),再输入activate,进入虚拟环境,你会发现在路径前面多了一个括号里面是你的虚拟环境名称,表示你进入了虚拟环境。具体看下面:

1#注:打开powershell的可以参照下面操作2PSH:\env\spiderenv\Scripts>cmd3MicrosoftWindows[版本10.0.17134.112]4(c)MicrosoftCorporation。保留所有权利。56H:\env\spiderenv\Scripts>activate7(spiderenv)H:\spiderenv\Scripts>

安装scrapy模块(下面操作都是在虚拟环境下):

方法一:直接pip安装(最简单,安装慢,可能出错)

1pipinstallscrapy

方法二:轮子(wheel)安装(比较简单,安装速度还可以,基本不出错)

点击这里下载scrapy的.whl文件,然后移动到你的虚拟环境目录下(比如我的就移动到H:\env\spiderenv\Scripts),

1pipinstallScrapy-1.5.1-py2.py3-none-any.whl

方法三:豆瓣源安装(比较简单,安装速度快,方便,推荐)

3. 快速进入虚拟环境方法

安装virtualenvwrapper模块,用于管理我们所建的虚拟环境

安装完成后,打开控制面板 - >系统 -> 高级系统设置 - > 环境变量 -> 系统变量 -> 新建,在新建系统环境变量对话框中输入如下

1变量名:WORKON_HOME2变量值:你的虚拟环境安装目录3比如:我的虚拟环境spiderenv安装在H:\env目录下,我的变量值就为:H:\env\4注:变量值最后一定要以\结尾,不然可能不会产生效果。

workon环境变量新建过程

在上面设置完成后,我们在cmd执行下面命令,即可简单快速进入虚拟环境:

1PSC:\Users\82055\Desktop>cmd2MicrosoftWindows[版本10.0.17134.112]3(c)MicrosoftCorporation。保留所有权利。45C:\Users\82055\Desktop>workon67Passanametoactivateoneofthefollowingvirtualenvs:8==============================================================================9spiderenv1011C:\Users\82055\Desktop>workonspiderenv12(spiderenv)C:\Users\82055\Desktop>13#注释:成功进入,退出虚拟环境命令为:deactivate

4. 创建一个基于Scrapy框架的项目

1#进入到自己的项目存放目录2(spiderenv)H:\env>cdH:\spider_project34#使用scrapy命令创建一个新工程5(spiderenv)H:\spider_project>scrapystartprojectspider_bole_blog67NewScrapyproject'spider_bole_blog',usingtemplatedirectory'h:\\env\\spiderenv\\8lib\\site-packages\\scrapy\\templates\\project',createdin:9H:\spider_project\spider_bole_blog10#提示创建网站爬虫命令11Youcanstartyourfirstspiderwith:

创建成功后文件目录结构:

1spider_bole_blog/2spider_bole_blog/3spiders/4__init__.py5__init__.py6items.py7pipelines.py8settings.py9scrapy.cfg

目录功能基本介绍:

1spider_bole_blog/:该项目的python模块。之后我们将在此加入代码。2spider_bole_blog/spiders/:放置spider代码的目录。3spider_bole_blog/items.py:项目中的item文件。4spider_bole_blog/pipelines.py:项目中的pipelines文件。5spider_bole_blog/settings.py:项目的设置文件。6scrapy.cfg:项目的配置文件。

创建一个jobbole(伯乐在线)的爬虫项目文件:

1#进入项目文件2(spiderenv)H:\spider_project>cdspider_bole_blog34#执行命令,创建一个基于Srapy的伯乐在线的爬虫5(spiderenv)H:\spider_project\spider_bole_blog>67Createdspider'jobbole'usingtemplate'basic'inmodule:8spider_bole_blog.spiders.jobbole

执行完成后会在项目的spiders目录下多出一个jobbole.py文件,文件内容如下:

1#-*-coding:utf-8-*-2#编码3importscrapy4#导入scrapy包56#继承scrapy.Spider的JobboleSpider爬虫类7classJobboleSpider(scrapy.Spider):89#用于区别Spider。该名字必须是唯一的,您不可以为不同的Spider设定相同的名字。10name='jobbole'1112#允许下载(访问)域13allowed_domains=['']1415#包含了Spider在启动时进行爬取的url列表。16#因此,第一个被获取到的页面将是其中之一。17#后续的URL则从初始的URL获取到的数据中提取。18start_urls=['/']1920#是spider的一个方法。21#被调用时,每个初始URL完成下载后生成的Response对象将会作为唯一的参数传递给该函数。22#该方法负责解析返回数据(responsedata),提取数据(生成item)以及生成需要进一步处理的URL23#的Request对象。24defparse(self,response):25pass

四、后言

今天讲的东西涵盖面还比较广,特别是虚拟环境管理这块,virtualenvwrapper还有很多命令,很实用,后面会慢慢给大家提及,大家也可以自己百度、谷歌查一下,另外,Scrapy模块今天也算正式开始,go on!

推荐阅读:

这次税改后,可能会产生自己加工资的错觉……

Python | 自动生成表情包,从此斗图无敌手!

如果觉得《Python | 初识爬虫框架Scrapy》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。