本文共 2358 字,大约阅读时间需要 7 分钟。
在开始安装之前,我们需要下载Scala和Spark的安装包。通过终端访问服务器,可以使用Wget命令下载相应的软件包。
# 下载Scalawget http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz# 下载Sparkwget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.7.tgz
安装Scala后,我们需要将其添加到系统的环境变量中,这样才能在终端中使用Scala命令。
解压Scala安装包
使用tar命令解压刚下载的Scala安装包。tar -zxvf scala-2.11.8.tgz
配置环境变量
在终端中设置Scala的环境变量,确保PATH包含Scala的安装目录。export SCALA_HOME=/opt/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin
验证Scala安装
在终端中运行Scala命令,验证是否正确安装。scala
输出示例:
Welcome to Scala 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_152).Type in expressions for evaluation. Or try :help.scala>
安装Spark后,我们需要配置环境变量并验证其正确运行。
解压Spark安装包
使用tar命令解压刚下载的Spark安装包。tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz
配置环境变量
在终端中设置Spark的环境变量,确保PATH包含Spark的安装目录。export SPARK_HOME=/opt/spark-2.0.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin
配置Spark-env.sh脚本
根据Spark文档,编辑spark-env.sh文件,设置必要的环境变量。export JAVA_HOME=/opt/jdk1.8export PATH=$PATH:$JAVA_HOME/binexport SCALA_HOME=/opt/scala-2.11.8export PATH=$PATH:$SCALA_HOME/binexport SPARK_HOME=/opt/spark-2.0.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin
完成Spark的安装后,我们需要启动集群并验证其运行状态。
启动集群
使用start-all.sh脚本启动Master节点和Worker节点。./start-all.sh
输出示例:
starting org.apache.spark.deploy.master.Master, logging to /opt/spark-2.0.0-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master-1-master.outlocalhost:\Slocalhost: Kernel \r on an \mlocalhost: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark-2.0.0-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-master.out
验证节点状态
使用jps命令查看当前运行的Java进程,确认Master和Worker节点已启动。jps
输出示例:
4128 Jps4049 Worker3992 Master
验证Spark环境是否正确配置并运行,确保集群能够正常工作。
运行Spark Shell
使用spark-shell命令启动Spark Shell,验证集群的连接状态。spark-shell
输出示例:
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.propertiesSetting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel).
读取文件并处理
通过Spark Shell读取本地文件并进行基本处理,验证Spark集群的功能。cat test.loghello gojavac mysql""""
或者读取HDFS文件:
var file = sc.textFile("hdfs://master/test.log")file: org.apache.spark.rdd.RDD[String] = hdfs://master/test.log MapPartitionsRDD[3] at textFile at 集群状态可以通过Web UI查看,访问地址为 http://master:4040。
通过以上步骤,您可以成功安装并配置Scala和Spark环境,并验证其运行状态。
转载地址:http://ssej.baihongyu.com/