Spark安装部署 ——一篇文章轻松学会三种Spark运行环境的搭建

作者:热心市民鹿先生2024.03.18 15:30浏览量:18

简介:本文介绍了Apache Spark的三种常见运行环境搭建方法,包括本地单机版、独立集群版和Hadoop集成版。通过简明扼要、清晰易懂的语言,以及丰富的实例和生动的图表,帮助读者轻松掌握Spark的安装部署。

千帆应用开发平台“智能体Pro”全新上线 限时免费体验

面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用

立即体验

Apache Spark是一种用于大数据工作负载的分布式开源处理系统,具有内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。本文将介绍三种Spark运行环境的搭建方法,包括本地单机版、独立集群版和Hadoop集成版,帮助读者轻松掌握Spark的安装部署。

一、本地单机版

本地单机版适合初学者和开发人员在本地进行测试和开发。下面介绍如何在本机上安装Spark。

  1. 下载Spark安装包

访问Apache Spark官方网站(https://spark.apache.org/downloads.html)下载对应版本的Spark安装包,这里以Spark-3.3.0为例。

  1. 解压安装包

将下载的安装包解压到本地磁盘,例如解压到/opt/spark目录下。

  1. $ tar -zxvf spark-3.3.0-bin-hadoop3.2.tar.gz -C /opt/
  2. $ mv /opt/spark-3.3.0-bin-hadoop3.2 /opt/spark
  1. 配置环境变量

编辑~/.bashrc文件,添加以下环境变量:

  1. export SPARK_HOME=/opt/spark
  2. export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

保存文件后,运行以下命令使环境变量生效:

  1. $ source ~/.bashrc

至此,本地单机版Spark安装完成。

二、独立集群版

独立集群版适合在多个节点上搭建Spark集群,不需要依赖Hadoop等分布式系统。下面介绍如何在三个节点上搭建Spark集群。

  1. 上传安装包

将Spark安装包上传到主节点(master)的/home目录下。

  1. 解压安装包

登录主节点,解压安装包到/opt目录下,并修改文件夹名称为spark。

  1. $ cd /home
  2. $ tar -zxvf spark-3.3.0-bin-hadoop3.2.tar.gz -C /opt/
  3. $ mv /opt/spark-3.3.0-bin-hadoop3.2 /opt/spark
  1. 配置环境变量

在主节点上配置环境变量,并将环境变量同步到其他节点(slave1和slave2)。

  1. $ vi /etc/profile
  2. export SPARK_HOME=/opt/spark
  3. export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
  4. $ source /etc/profile

在其他节点上执行相同操作,确保所有节点具有相同的环境变量配置。

  1. 配置集群

在主节点上编辑$SPARK_HOME/conf目录下的spark-env.sh文件,添加以下内容:

  1. export SPARK_MASTER_HOST=master
  2. export SPARK_MASTER_PORT=7077

其中,master为主节点的主机名或IP地址,7077为Spark集群的默认端口号。

接下来,编辑$SPARK_HOME/conf目录下的slaves文件,添加所有工作节点的主机名或IP地址,例如:

  1. master
  2. slave1
  3. slave2

至此,独立集群版Spark安装完成。

三、Hadoop集成版

Hadoop集成版适合将

article bottom image

相关文章推荐

发表评论