失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 大数据之spark详解

大数据之spark详解

时间:2020-05-07 22:53:12

相关推荐

大数据之spark详解

目录

什么是spark:

功能历史上和hadoop的区别:

spark的五大核心模块:

➢ Spark Core

什么是spark:

简单一点Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。属于mapreduce的加强版本,结合了其优点而且spark是可以将数据保存在内存中从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

功能历史上和hadoop的区别:

首先从时间节点上来看: ➢ Hadoop ⚫ 年 1 月,Doug Cutting 加入 Yahoo,领导 Hadoop 的开发 ⚫ 年 1 月,Hadoop 成为 Apache 顶级项目 ⚫ 年 1.0 正式发布 ⚫ 年 3 月稳定版发布 ⚫ 年 10 月发布 2.X (Yarn)版本 ➢ Spark ⚫ 年,Spark 诞生于伯克利大学的 AMPLab 实验室 ⚫ 年,伯克利大学正式开源了 Spark 项目 ⚫ 年 6 月,Spark 成为了 Apache 基金会下的项目 ⚫ 年 2 月,Spark 以飞快的速度成为了 Apache 的顶级项目 ⚫ 年至今,Spark 变得愈发火爆,大量的国内公司开始重点部署或者使用 Spark 然后我们再从功能上来看: ⚫ Hadoop 是由 java 语言编写的,在分布式服务器集群上存储海量数据并运行分布式 分析应用的开源框架 ⚫ 作为 Hadoop 分布式文件系统,HDFS 处于 Hadoop 生态圈的最下层,存储着所有 的 数 据 , 支 持 着 Hadoop 的 所 有 服 务 。 它 的 理 论 基 础 源 于 Google 的 TheGoogleFileSystem 这篇论文,它是 GFS 的开源实现。 ⚫ MapReduce 是一种编程模型,Hadoop 根据 Google 的 MapReduce 论文将其实现, 作为 Hadoop 的分布式计算模型,是 Hadoop 的核心。基于这个框架,分布式并行 程序的编写变得异常简单。综合了 HDFS 的分布式存储和 MapReduce 的分布式计 算,Hadoop 在处理海量数据时,性能横向扩展变得非常容易。 ⚫ HBase 是对 Google 的 Bigtable 的开源实现,但又和 Bigtable 存在许多不同之处。 HBase 是一个基于 HDFS 的分布式数据库,擅长实时地随机读/写超大规模数据集。 它也是 Hadoop 非常重要的组件。 ➢ Spark ⚫ Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎 ⚫ Spark Core 中提供了 Spark 最基础与最核心的功能 ⚫ Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。 ⚫ Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的 处理数据流的 API。 由上面的信息可以获知,Spark 出现的时间相对较晚,并且主要功能主要是用于数据计算, 所以其实 Spark 一直被认为是 Hadoop 框架的升级版。

spark的五大核心模块:

Spark CoreSpark Core 中提供了 Spark 最基础与最核心的功能,Spark 其他的功能如:Spark SQL, Spark Streaming,GraphX, MLlib 都是在 Spark Core 的基础上进行扩展的 ➢Spark SQLSpark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。 ➢Spark StreamingSpark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理 数据流的 API。 ➢Spark MLlibMLlib 是 Spark 提供的一个机器学习算法库。MLlib 不仅提供了模型评估、数据导入等 额外的功能,还提供了一些更底层的机器学习原语。 ➢Spark GraphXGraphX 是 Spark 面向图计算提供的框架与算法库。 然后我们主要学习这五大板块内容(更新中)

➢ Spark Core

如果觉得《大数据之spark详解》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。