失眠网 > Python | 初识爬虫框架Scrapy

Python | 初识爬虫框架Scrapy

时间：2021-07-25 14:22:02

一、前言

今天给大家分享的是，Python里的爬虫框架Scrapy学习，包含python虚拟环境的搭建、虚拟环境的使用、Scrapy安装方法详解、Scrapy基本使用、Scrapy项目目录及内容基本介绍，let's go！

二、Python爬虫框架Scrapy简介

推荐查看Scrapy中文帮助文档：

三、看代码，边学边敲边记虚拟环境、Scrapy框架

1. 新建一个虚拟环境

下面操作之前你需要准备好：

(1) 你的python版本是3.x，最好系统里只有一个python环境,后面所有学习笔记都基于py3的。

(2)python环境里先安装virtualenv模块，基本方法pip install virtualenv 。

(3)选择好虚拟环境的安装目录(我选的是H盘目录下的env文件夹，建议你选的目录路径里最好不要有中文)。

安装完成后再自己选择的目录下会多出一个文件夹(虚拟环境)，我这里为H：\env\spiderenv,后面所有爬虫学习过程中需要的模块、接口都将pip(安装)在里面。

2. 打开虚拟环境，安装Scrapy框架

进入到目录H:\env\spiderenv\Scripts(我的虚拟环境目录)，按住shift+鼠标右键，打开powershell或者cmd(如果是powershell就先输入cmd)，再输入activate，进入虚拟环境，你会发现在路径前面多了一个括号里面是你的虚拟环境名称，表示你进入了虚拟环境。具体看下面：

安装scrapy模块(下面操作都是在虚拟环境下)：

方法一：直接pip安装(最简单，安装慢，可能出错)

1pipinstallscrapy

方法二：轮子(wheel)安装(比较简单，安装速度还可以，基本不出错)

点击这里下载scrapy的.whl文件，然后移动到你的虚拟环境目录下(比如我的就移动到H:\env\spiderenv\Scripts),

1pipinstallScrapy-1.5.1-py2.py3-none-any.whl

方法三：豆瓣源安装(比较简单，安装速度快，方便，推荐)

3. 快速进入虚拟环境方法

安装virtualenvwrapper模块，用于管理我们所建的虚拟环境

安装完成后，打开控制面板 - >系统 -> 高级系统设置 - > 环境变量 -> 系统变量 -> 新建，在新建系统环境变量对话框中输入如下

1变量名：WORKON_HOME2变量值：你的虚拟环境安装目录3比如：我的虚拟环境spiderenv安装在H:\env目录下，我的变量值就为：H：\env\4注：变量值最后一定要以\结尾，不然可能不会产生效果。

workon环境变量新建过程

在上面设置完成后，我们在cmd执行下面命令，即可简单快速进入虚拟环境：

1PSC:\Users\82055\Desktop>cmd2MicrosoftWindows[版本10.0.17134.112]3(c)MicrosoftCorporation。保留所有权利。45C:\Users\82055\Desktop>workon67Passanametoactivateoneofthefollowingvirtualenvs:8==============================================================================9spiderenv1011C:\Users\82055\Desktop>workonspiderenv12(spiderenv)C:\Users\82055\Desktop>13#注释：成功进入，退出虚拟环境命令为：deactivate

4. 创建一个基于Scrapy框架的项目

1#进入到自己的项目存放目录2(spiderenv)H:\env>cdH:\spider_project34#使用scrapy命令创建一个新工程5(spiderenv)H:\spider_project>scrapystartprojectspider_bole_blog67NewScrapyproject'spider_bole_blog',usingtemplatedirectory'h:\\env\\spiderenv\\8lib\\site-packages\\scrapy\\templates\\project',createdin:9H:\spider_project\spider_bole_blog10#提示创建网站爬虫命令11Youcanstartyourfirstspiderwith:

创建成功后文件目录结构：

1spider_bole_blog/2spider_bole_blog/3spiders/4__init__.py5__init__.py6items.py7pipelines.py8settings.py9scrapy.cfg

目录功能基本介绍:

1spider_bole_blog/:该项目的python模块。之后我们将在此加入代码。2spider_bole_blog/spiders/:放置spider代码的目录。3spider_bole_blog/items.py:项目中的item文件。4spider_bole_blog/pipelines.py:项目中的pipelines文件。5spider_bole_blog/settings.py:项目的设置文件。6scrapy.cfg:项目的配置文件。

创建一个jobbole(伯乐在线)的爬虫项目文件：

1#进入项目文件2(spiderenv)H:\spider_project>cdspider_bole_blog34#执行命令，创建一个基于Srapy的伯乐在线的爬虫5(spiderenv)H:\spider_project\spider_bole_blog>67Createdspider'jobbole'usingtemplate'basic'inmodule:8spider_bole_blog.spiders.jobbole

执行完成后会在项目的spiders目录下多出一个jobbole.py文件，文件内容如下：

1#-*-coding:utf-8-*-2#编码3importscrapy4#导入scrapy包56#继承scrapy.Spider的JobboleSpider爬虫类7classJobboleSpider(scrapy.Spider):89#用于区别Spider。该名字必须是唯一的，您不可以为不同的Spider设定相同的名字。10name='jobbole'1112#允许下载(访问)域13allowed_domains=['']1415#包含了Spider在启动时进行爬取的url列表。16#因此，第一个被获取到的页面将是其中之一。17#后续的URL则从初始的URL获取到的数据中提取。18start_urls=['/']1920#是spider的一个方法。21#被调用时，每个初始URL完成下载后生成的Response对象将会作为唯一的参数传递给该函数。22#该方法负责解析返回数据(responsedata)，提取数据(生成item)以及生成需要进一步处理的URL23#的Request对象。24defparse(self,response):25pass