失眠网 > IDEA连接Spark集群执行Scala程序

IDEA连接Spark集群执行Scala程序

时间：2020-11-27 09:07:55

前言

接下来下定决心好好学习Spark了。。。ps：关于Spark安装和使用以及Spark分布式集群环境搭建，请见参考内容1-4，这里就不作阐述了。

步骤

首先安装Scala插件，File->Settings->Plugins，搜索出Scla插件，点击Install安装；

File->New Project->maven，新建一个Maven项目，填写GroupId和ArtifactId；

编辑pom.xml文件，添加项目所需要的依赖：前面几行是系统自动生成的，我们只需要从<version>1.0-SNAPSHOT</version>之后开始添加就行。关于spark.version和scala.version需要在服务器通过启动spark-shell查询。

<?xml version="1.0" encoding="UTF-8"?><project xmlns="/POM/4.0.0"xmlns:xsi="/2001/XMLSchema-instance"xsi:schemaLocation="/POM/4.0.0 /xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>test</groupId><artifactId>SparkPi</artifactId><version>1.0-SNAPSHOT</version><properties><spark.version>2.4.4</spark.version><scala.version>2.11</scala.version></properties><repositories><repository><id>nexus-aliyun</id><name>Nexus aliyun</name><url>/nexus/content/groups/public</url></repository></repositories><dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_${scala.version}</artifactId><version>${spark.version}</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_${scala.version}</artifactId><version>${spark.version}</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_${scala.version}</artifactId><version>${spark.version}</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-hive_${scala.version}</artifactId><version>${spark.version}</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-mllib_${scala.version}</artifactId><version>${spark.version}</version></dependency></dependencies><build><plugins><plugin><groupId>org.scala-tools</groupId><artifactId>maven-scala-plugin</artifactId><version>2.15.2</version><executions><execution><goals><goal>compile</goal><goal>testCompile</goal></goals></execution></executions></plugin><plugin><artifactId>maven-compiler-plugin</artifactId><version>3.6.0</version><configuration><source>1.8</source><target>1.8</target></configuration></plugin><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-surefire-plugin</artifactId><version>2.19</version><configuration><skip>true</skip></configuration></plugin></plugins></build></project>

File->Project Structure->Libraries，选择和Spark运行环境一致的Scala版本

File->Project Structure->Modules，在src/main/下面增加一个scala文件夹，并且设置成source文件夹

在scala文件夹下面新建一个scala文件SparkPi

SparkPi文件的代码如下：其中，setMaster用来指定spark集群master的位置；setJars用来指定程序jar包的位置，此位置在下面1步中添加程序jar包的output directory可以看到。

import scala.math.randomimport org.apache.spark._object SparkPi {def main(args: Array[String]) {val conf = new SparkConf().setAppName("Spark Pi").setMaster("spark://222.201.187.178:7077").setJars(Seq("E:\\IdeaProjects\\SparkPi\\out\\artifacts\\SparkPi_jar\\SparkPi.jar"))val spark = new SparkContext(conf)val slices = if (args.length > 0) args(0).toInt else 2println("Time:" + spark.startTime)val n = math.min(1000L * slices, Int.MaxValue).toInt // avoid overflowval count = spark.parallelize(1 until n, slices).map { i =>val x = random * 2 - 1val y = random * 2 - 1if (x*x + y*y < 1) 1 else 0}.reduce(_ + _)println("Pi is roughly " + 4.0 * count / n)spark.stop()}}

File->Project Structure->Artifacts，新建一个Jar->From modules with dependencies…，选择Main Class，之后在Output Layput中删掉不必要的jar

这里的output directory即为前面SparkPi.scala代码里setJars用来指定程序jar包的位置

注意这里如果没有删除没用的jar包，后面执行会报错java.lang.ClassNotFoundException: SparkPi$$anonfun$1

在服务器集群配置文件/usr/local/spark/conf/spark-env.sh中加入以下代码：

export SPARK_SUBMIT_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5005"

address：JVM在5005端口上监听请求，这个设定为一个不冲突的端口即可。 server：y表示启动的JVM是被调试者，n表示启动的JVM是调试器。suspend：y表示启动的JVM会暂停等待，直到调试器连接上才继续执行，n则JVM不会暂停等待。

在服务器Master节点主机上启动hadoop集群，然后再启动spark集群,最后运行jps命令检查进程。

cd /usr/local/hadoop/sbin/start-all.sh # 启动hadoop集群cd /usr/local/spark/sbin/start-master.sh # 启动Master节点sbin/start-slaves.sh # 启动所有Slave节点jps

在IDEA上添加远程配置，根据spark集群中spark-env.sh的SPARK_SUBMIT_OPTS的变量，对远程执行进行配置，保持端口号一致

配置完成，右键run执行scala程序。初次运行报错如下，选择右下角弹窗中的enable auto import，然后再重新执行一次。

完美！！！

结束记得关闭spark集群哦

sbin/stop-master.sh # 关闭Master节点sbin/stop-slaves.sh # 关闭Worker节点cd /usr/local/hadoop/sbin/stop-all.sh # 关闭Hadoop集群

参考内容

Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04_厦大数据库实验室博客

http://dblab./blog/install-hadoop/Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS_厦大数据库实验室博客

http://dblab./blog/install-hadoop-cluster/Spark安装和使用_厦大数据库实验室博客

http://dblab./blog/931-2/Spark 2.0分布式集群环境搭建_厦大数据库实验室博客

http://dblab./blog/1187-2/利用idea对spark程序进行远程提交和调试 - yiluohan0307的专栏 - CSDN博客

/yiluohan0307/article/details/80048765使用Intellij IDEA开发并提交Spark应用到远程Spark集群 - Camu7s的专栏 - CSDN博客

/Camu7s/article/details/45530295Intellij IDEA连接Spark集群 - MSTK - 博客园

/mstk/p/6875068.html?utm_source=itdadao&utm_medium=referraljava.lang.ClassNotFoundException: SparkPi$$anonfun$1 - weixin_34019144的博客 - CSDN博客

/weixin_34019144/article/details/86440499

如果觉得《IDEA连接Spark集群执行Scala程序》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。