失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > Python实现抓取页面上链接的简单爬虫分享

Python实现抓取页面上链接的简单爬虫分享

时间:2019-08-25 12:36:03

相关推荐

Python实现抓取页面上链接的简单爬虫分享

后端开发|Python教程

Python,抓取页面上链接爬虫

后端开发-Python教程

除了C/C++以外,我也接触过不少流行的语言,PHP、java、javascript、python,其中python可以说是操作起来最方便,缺点最少的语言了。

在线点播源码,VScode主题有哪些,编程与ubuntu,tomcat 加号变空格,sqlite 提取 e4a,如何用爬虫爬自己的访问记录,php 对象转换成数组,seo模型操作计划视频,基于的旅游网站,bootstrap oa模板lzw

前几天想写爬虫,后来跟朋友商量了一下,决定过几天再一起写。爬虫里重要的一部分是抓取页面中的链接,我在这里简单的实现一下。

.net开发erp系统源码下载,vscode退出控制台,ubuntu指针隐藏,tomcat与mvc联系,在线爬虫视频,php 带参数的构造函数,SEO目标近期购物有哪些,建网站需要服务器吗,phpcms后台界面模板lzw

首先我们需要用到一个开源的模块,requests。这不是python自带的模块,需要从网上下载、解压与安装:

linux 库函数 源码,如何关闭vscode的代码提示,ubuntu翻墙教程,tomcat操作教学,sqlite安装 aix,电动车网页设计,服务器如何开启伪静态,json格式解析插件,前端框架 alian,有壳的爬虫,php转换为字符串,中山seo推广方案,springboot像什么,考试微网站,谷歌翻译网页代码,时间轴图片模板下载,dedecms 后台 中文,h5静态页面制作,开源装修管理系统,杰奇红袖添香在线小说网站源码程序lzw

复制代码 代码如下:

$ curl -OL /kennethreitz/requests/zipball/master

$ python setup.py install

windows用户直接点击下载。解压后再本地使用命令python setup.py install安装即可。 /kennethreitz/requests/zipball/master

这个模块的文档我也正在慢慢翻译,翻译完了就给大家传上来(英文版先发在附件里)。就像它的说明里面说的那样,built for human beings,为人类而设计。使用它很方便,自己看文档。最简单的,requests.get()就是发送一个get请求。

代码如下:

复制代码 代码如下:

# coding:utf-8

import re

import requests

# 获取网页内容

r = requests.get(\)

data = r.text

# 利用正则查找所有连接

link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\).+?(?=\)" ,data)

for url in link_list:

print url

首先import进re和requests模块,re模块是使用正则表达式的模块。

data = requests.get(\),向网易首页提交get请求,得到一个requests对象r,r.text就是获得的网页源代码,保存在字符串data中。

再利用正则查找data中所有的链接,我的正则写的比较粗糙,直接把href=""或href=\之间的信息获取到,这就是我们要的链接信息。

re.findall返回的是一个列表,用for循环遍历列表并输出:

这是我获取到的所有连接的一部分。

上面是获取网站里所有链接的一个简单的实现,没有处理任何异常,没有考虑到超链接的类型,代码仅供参考。requests模块文档见附件。

如果觉得《Python实现抓取页面上链接的简单爬虫分享》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。