失眠网 > python爬虫css选择器不需要导入库还有哪些方法可以采集数据 – CSS – 前端 python numpy std

python爬虫css选择器不需要导入库还有哪些方法可以采集数据 – CSS – 前端 python numpy std

时间：2020-09-19 22:43:30

1.Excel爬取数据：Excel这个办公工具大部分人都应该听说过，日常的表格制作、数据统计，经常会用到，但是说起利用Excel爬取网络数据，这个使用的人应该不多，下面偶简单介绍一下Excel是如何爬取数据的，主要步骤如下，这里以office为例：

这里以抓取http://www.pm25.in/rank上的pm2.5数据为例，如下：

首先，新建一个Excel表格，如下，依次点击“数据”->“自网站”，如下：

接着在弹出的窗口中输入要爬取的网站链接地址，点击“跳转”，就会自动跳转到对应页面，接着点击“导入”，就会自动导入网页数据，如下：

成功导入后的数据如下，也就是大家需要爬取的网络数据：

这里也可以设置定时刷新的频率，定时刷新数据，如下，点击“属性”，就会弹出如下对话框，直接设置刷新频率就行：

2.八爪鱼爬取数据：这是一个免费的网络采集工具，不需要写任何代码，完全可视化操作，使用简单，文档丰富，用户只需简单的点击、选中，就能实现对绝大多数网站数据的爬取，下面偶简单介绍一下这个工具的安装和使用：

安装八爪鱼，这个直接到官方下载就成，免费，很快就能下载完成，完成后，直接双击安装就行：

这里以爬取58上的招聘数据为例，如下：

首先，打开八爪鱼软件，点击“任务”，输入网址，就会打开爬取的页面，如下：

接着大家选中需要采集的条目，如下，随便点击一个就行：

然后在右上角的“操作提示”中依次点击“选中子元素”->“选中全部”->“采集以下数据”->“保存并开始采集”，如下，程序就会自动开始采集数据：

成功采集后的数据如下，也就是大家需要爬取的数据：

这里大家也可以点击右下角的“导出数据”，导出为excel，csv，数据库等都行：

至此，大家就完成了利用excel和八爪鱼对网络数据的采集。总的来说，这2个工具使用起来都非常方便、快捷，只需要简单的点击按钮，就可以完成对网络数据的采集，不需要写任何代码，网上的教程也很丰富，感兴趣的可以尝试一下，当然，你也可以利用python等爬虫来完成对数据的采集，都可以，希望以上分享的内容能对你有所帮助吧，也欢迎大家评论、留言。

@ python学习爬虫？

偶认为是需要学习的，做爬虫除了需要了解 python 自身的基础，还需要了解 HTTP 的基础知识，对全栈的了解是跑不了的。大家从静态页面的抓取到动态生成内容的抓取，web 前端全家桶（尤其是 DOM）也是需要的。此外需不需进一步控制浏览器呢，selenium，CDP (Chrome Devtools Protocol) 各路神仙一招呼，这些更是 web 前端和 HTTP 和网络的深度结合。