Spark安装部署 ——一篇文章轻松学会三种Spark运行环境的搭建
2024.03.18 15:30浏览量:18简介:本文介绍了Apache Spark的三种常见运行环境搭建方法,包括本地单机版、独立集群版和Hadoop集成版。通过简明扼要、清晰易懂的语言,以及丰富的实例和生动的图表,帮助读者轻松掌握Spark的安装部署。
千帆应用开发平台“智能体Pro”全新上线 限时免费体验
面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用
Apache Spark是一种用于大数据工作负载的分布式开源处理系统,具有内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。本文将介绍三种Spark运行环境的搭建方法,包括本地单机版、独立集群版和Hadoop集成版,帮助读者轻松掌握Spark的安装部署。
一、本地单机版
本地单机版适合初学者和开发人员在本地进行测试和开发。下面介绍如何在本机上安装Spark。
- 下载Spark安装包
访问Apache Spark官方网站(https://spark.apache.org/downloads.html)下载对应版本的Spark安装包,这里以Spark-3.3.0为例。
- 解压安装包
将下载的安装包解压到本地磁盘,例如解压到/opt/spark目录下。
$ tar -zxvf spark-3.3.0-bin-hadoop3.2.tar.gz -C /opt/
$ mv /opt/spark-3.3.0-bin-hadoop3.2 /opt/spark
- 配置环境变量
编辑~/.bashrc文件,添加以下环境变量:
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
保存文件后,运行以下命令使环境变量生效:
$ source ~/.bashrc
至此,本地单机版Spark安装完成。
二、独立集群版
独立集群版适合在多个节点上搭建Spark集群,不需要依赖Hadoop等分布式系统。下面介绍如何在三个节点上搭建Spark集群。
- 上传安装包
将Spark安装包上传到主节点(master)的/home目录下。
- 解压安装包
登录主节点,解压安装包到/opt目录下,并修改文件夹名称为spark。
$ cd /home
$ tar -zxvf spark-3.3.0-bin-hadoop3.2.tar.gz -C /opt/
$ mv /opt/spark-3.3.0-bin-hadoop3.2 /opt/spark
- 配置环境变量
在主节点上配置环境变量,并将环境变量同步到其他节点(slave1和slave2)。
$ vi /etc/profile
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
$ source /etc/profile
在其他节点上执行相同操作,确保所有节点具有相同的环境变量配置。
- 配置集群
在主节点上编辑$SPARK_HOME/conf目录下的spark-env.sh文件,添加以下内容:
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077
其中,master为主节点的主机名或IP地址,7077为Spark集群的默认端口号。
接下来,编辑$SPARK_HOME/conf目录下的slaves文件,添加所有工作节点的主机名或IP地址,例如:
master
slave1
slave2
至此,独立集群版Spark安装完成。
三、Hadoop集成版
Hadoop集成版适合将

发表评论
登录后可评论,请前往 登录 或 注册