失眠网 > python简单的爬虫教程中召唤小海龟_Python练习网络小爬虫（初级）

python简单的爬虫教程中召唤小海龟_Python练习网络小爬虫（初级）

时间：2020-01-07 17:03:47

标签：

最近还在看Python版的rcnn代码，附带练习Python编程写一个小的网络爬虫程序。

抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏览器的地址栏中输入这个地址。打开网页的过程其实就是浏览器作为一个浏览的“客户端”，向服务器端发送了一次请求，把服务器端的文件“抓”到本地，再进行解释、展现。HTML是一种标记语言，用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析，然后将原始的代码转变成我们直接看到的网站页面。

统一资源标志符(Universal Resource Identifier， URI)，统一资源定位符(Uniform Resource Locator，URI)，URL是URI的一个子集。

总的来说，网络爬虫的原理很简单，就是通过你事先给定的一个URL，从这个URL开始爬，下载每一个URL的HTML代码，根据你要抓取的内容，观察HTML代码的规律性，写出相应的正则表达式，将所需的内容的HTML代码抠出来，保存在列表中，并按具体要求处理扣出来的代码，这就是网络爬虫，其实就是一个对若干有规律的网页的HTML代码进行处理的程序。(当然，这只是简单的小爬虫，对于一些大型爬虫，可以设置有很多线程分别处理每一次获取到的URL地址)。其中要实现正则表达式的部分内容，应该导入re包，要实现URL的加载，阅读功能需要导入urllib2包。

显示网页代码：

import urllib2

response= urllib2.urlopen(‘/‘)

html=response.read()

print html

当然，在请求服务器服务的过程中，也会产生异常：URLError在没有网络连接(没有路由到特定服务器)，或者服务器不存在的情况下产生。

对网页的HTML代码进行处理：

import urllib2

import re

def getimg(html):

reg= r‘src="(.+?\.jpg)" pic_ext‘imgre=pile(reg)

imglist=re.findall(imgre,html)return imglist