谢邀
很看题主可能是不太了解爬虫,以下给你普及一下网络爬虫吧
关于网络爬虫的概念,我们先来瞅瞅维基百科(Wikipedia)上面的定义:
网络爬虫(英语:web crawler),也叫网上蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。
这里提到的编纂网络索引,就是搜索引擎干的事情。我们对搜索引擎并不陌生,Google、百度等搜索引擎可能每天都在帮我们快速获得信息。可能小猿们要问,搜索引擎的工作过程是怎样的呢?
首先,就是有网络爬虫不断抓取各个网站的网页,存放到搜索引擎的数据库;
接着,索引程序读取数据库的网页进行清理,建立倒排索引;
最后,搜索程序接收用户的查询关键词,去索引里面找到相关内容,并通过一定的排序算法(Pagerank等)把最相关最好的结果排在最前面呈现给用户。
看上去简简单单的三个部分,却构成了强大复杂的搜索引擎系统。而网络爬虫是其中最基础也很重要的一部分,它决定着搜索引擎数据的完整性和丰富性。我们也看到网络爬虫的主要作用是获取数据。
由此简单地说,网络爬虫就是获取互联网公开数据的自动化工具。
这里要强调一下,网络爬虫爬取的是互联网上的公开数据,而不是通过特殊技术非法入侵到网站服务器获取的非公开数据。
可能你要问,什么是"公开数据”呢?简而言之,就是网站上公开让用户浏览、获取的数据。
虽然数据是公开的,但是当某人或机构(如,搜索引擎)大量收集这些数据并因此获利时,
如果觉得《python爬虫多久能学会-零基础学爬虫大概多久啊?》对你有帮助,请点赞、收藏,并留下你的观点哦!