失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > Spark的StandAlone模式原理和安装 Spark-on-YARN的理解

Spark的StandAlone模式原理和安装 Spark-on-YARN的理解

时间:2023-08-20 11:28:33

相关推荐

Spark的StandAlone模式原理和安装 Spark-on-YARN的理解

Spark是一个内存迭代式运算框架,通过RDD来描述数据从哪里来,数据用那个算子计算,计算完的数据保存到哪里,RDD之间的依赖关系。他只是一个运算框架,和storm一样只做运算,不做存储。

Spark程序可以运行在Yarn、standalone、mesos等平台上,standalone是Spark提供的一个分布式运行平台,分为master和worker两个角色。

Standalone模式安装:只要修改一个文件即可

Spark-env.sh为: (master没有做HA)

#指定JAVA_HOME位置export JAVA_HOME=/usr/jdk#不做HA,需要指定spark老大Master的IPexport SPARK_MASTER_IP=master1#指定spark的Master的端口export SPARK_MASTER_PORT=7077#指定可用的CPU内核数量(默认:所有可用)#export SPARK_WORKER_CORES=1#作业可使用的内存容量,默认格式为1000m或者2g(默认:所有RAM去掉给操作系统用的1GB)#export SPARK_WORKER_MEMORY=500m#机器上运行worker数量 (默认:1)。当你有一个非常强大的计算机的时可启动多个worker进程。#export SPARK_WORKER_INSTANCES=1#设置hadoop集群的配置文件所在目录#export HADOOP_CONF_DIR=/home/hadoop/hadoop/etc/hadoop#(可选)配置两个Spark Master实现高可靠(首先要配置zookeeper集群,在spark-env.sh添加SPARK_DAEMON_JAVA_OPTS)#export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master1ha:2181,master2:2181,master2ha:2181 -Dspark.deploy.zookeeper.dir=/spark"

Spark-env.sh为: (master做HA)

#指定JAVA_HOME位置export JAVA_HOME=/usr/jdk#做HA,不能指定spark老大Master的IP,让zookeeper来选择#export SPARK_MASTER_IP=master1#指定spark的Master的端口export SPARK_MASTER_PORT=7077#指定可用的CPU内核数量(默认:所有可用)#export SPARK_WORKER_CORES=1#作业可使用的内存容量,默认格式为1000m或者2g(默认:所有RAM去掉给操作系统用的1GB)#export SPARK_WORKER_MEMORY=500m#机器上运行worker数量 (默认:1)。当你有一个非常强大的计算机的时可启动多个worker进程。#export SPARK_WORKER_INSTANCES=1#设置hadoop集群的配置文件所在目录#export HADOOP_CONF_DIR=/home/hadoop/hadoop/etc/hadoop#(可选)配置两个Spark Master实现高可靠(首先要配置zookeeper集群,在spark-env.sh添加SPARK_DAEMON_JAVA_OPTS)export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master1ha:2181,master2:2181,master2ha:2181 -Dspark.deploy.zookeeper.dir=/spark"

思考:Spark需要从HDFS上读取数据,又不在这里配置hadoop的安装目录,它是怎么知道HDFS的NameNode在哪里?

答案:

1、如果在这里配置hadoop的安装路径,意味着每一台Spark机器都要安装hadoop软件。这样对软件的依赖太强,其实如果是指定hadoop的安装目录,莫非就是想读取他的配置文件,然后知道NameNode在哪里即可,因为它是通过HDFS的API来对HDFS进行操作的。

2、Spark的解决方案很简单也很直白

把你们的配置文件都扔到我的conf目录下我就知道怎么去和NameNode连接了,同样也知道如何去和yarn连接,而且还知道如何去使用hive的仓库元数据。

整合HDFS之后,默认路径就会是那个HDFS的NameNode路径了。如果要读取本地的数据,那么需要指定file:///root/words.txt

只要你们把配置文件给我,我什么都知道。

问题:上述的standalone模式是Spark提供的一种方式,但是很多公司做大数据原本就有了Yarn集群了,如何把Spark也运行在Yarn上,从而省去Spark集群?

1、Spark-On-Yarn的介绍:

Spark-ON-Yarn之后,不在需要Spark集群了,也就是其他机器上不需要安装Spark框架程序,只需要有一台机器安装Spark+hadoop作为客户端即可,有了hadoop的安装目录,就知道resourceManager在哪里。

还有就是Yarn集群。

Spark-On-Yarn配置

Spark-env.sh为:

#指定JAVA_HOME位置export JAVA_HOME=/usr/jdk#指定hadoop的安装目录在哪里,因为他要读取hadoop的配置文件,从而知道resourceManager在哪里export HADOOP_CONF_DIR=/usr/mysoft/hadoop/etc/

Spark-On-Yarn运行方式有两种==>cluster 、 client

1、cluster模式(在yarn上启动一个appmaster作为Driver,完成DAGscheduler和TaskScheduler,也就是安装Spark的机器就是一个“仅仅上传jar包到HDFS的角色”

cluster模式:Driver程序在YARN中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如HDFS、Redis、Mysql)而非stdout输出的应用程序,客户端的终端显示的仅是作为YARN的job的简单运行状况。

./bin/spark-submit --class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode cluster \--driver-memory 1g \--executor-memory 1g \--executor-cores 2 \--queue default \lib/spark-examples*.jar \10

1.1运行原理图如下:

1.2具体步骤

Spark Driver首先作为一个ApplicationMaster在YARN集群中启动,客户端提交给ResourceManager的每一个job都会在集群的NodeManager节点上分配一个唯一的ApplicationMaster,由该ApplicationMaster管理全生命周期的应用。具体过程:

由client向ResourceManager提交请求,并上传jar到HDFS上 这期间包括四个步骤: a).连接到RM b).从RM的ASM(ApplicationsManager )中获得metric、queue和resource等信息。 c). upload app jar and spark-assembly jar d).设置运行环境和container上下文(launch-container.sh等脚本)

ResouceManager向NodeManager申请资源,创建Spark ApplicationMaster(每个SparkContext都有一个ApplicationMaster)

NodeManager启动ApplicationMaster,并向ResourceManager AsM注册ApplicationMaster从HDFS中找到jar文件,启动SparkContext、DAGscheduler和YARN Cluster SchedulerResourceManager向ResourceManager AsM注册申请container资源ResourceManager通知NodeManager分配Container,这时可以收到来自ASM关于container的报告。(每个container对应一个executor)Spark ApplicationMaster直接和container(executor)进行交互,完成这个分布式任务。

2、client模式(这个是后Spark提交任务程序才是整整的客户端,它充当Driver,负责DAGScheduler和Taskscheduler等)

client模式:Driver运行在Client上,应用程序运行结果会在客户端显示,所有适合运行结果有输出的应用程序(如spark-shell)

./bin/spark-submit --class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \--driver-memory 1g \--executor-memory 1g \--executor-cores 2 \--queue default \lib/spark-examples*.jar \10

2.1运行原理图如下:

2.2具体步骤

在client模式下,Driver运行在Client上,通过ApplicationMaster向RM获取资源。本地Driver负责与所有的executor container进行交互,并将最后的结果汇总。结束掉终端,相当于kill掉这个spark应用。一般来说,如果运行的结果仅仅返回到terminal上时需要配置这个。

客户端的Driver将应用提交给Yarn后,Yarn会先后启动ApplicationMaster和executor,另外ApplicationMaster和executor都 是装载在container里运行,container默认的内存是1G,ApplicationMaster分配的内存是driver- memory,executor分配的内存是executor-memory。同时,因为Driver在客户端,所以程序的运行结果可以在客户端显 示,Driver以进程名为SparkSubmit的形式存在。

总结:

1、Spark可以运行在standalone、yarn、mesos等资源调度平台上。

2、当运行在yarn上时,有两种方式,cluster模式和client模式,不同的场景用不同的模式,比如spark-shell必须使用client模式,因为要进行交互式处理。

java提交spark任务到yarn平台

spark-submit 提交任务及参数说明

Java代码使用Spark on Yarn 方式提交任务到带Kerberos认证的Hadoop集群

spark-submit到yarn上遇到的各种坑

PySpark 的背后原理

如果觉得《Spark的StandAlone模式原理和安装 Spark-on-YARN的理解》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。