页面历史

...

注意

title	前置条件

需要使用Smartbi提供的Spark3.0安装包部署1安装包部署

数据挖掘数据量2000万以下时，无需单独部署spark节点，只需要提升数据挖掘服务器配置即可

注意

title	文档环境

集群部署数据挖掘组件环境如下：

服务器IP	主机名	组件实例	部署目录
10.10.35.64	10-10-35-64	数据挖掘-1，Zookeeper-1，Python-1	/data
10.10.35.65	10-10-35-65	数据挖掘-2，Spark-1，Hadoop-1	/data
10.10.35.66	10-10-35-66	Spark-2，Zookeeper-2，Hadoop-2	/data
10.10.35.67	10-10-35-67	Spark-3，Zookeeper-3，Hadoop-3，Python-2	/data
10.10.204.250	10-10-204-250	Smartbi-Proxy	/data

1、系统环境准备

1.1防火墙配置1 防火墙配置

为了便于安装，建议在安装前关闭防火墙。使用过程中，为了系统安全可以选择启用防火墙，但必须启用服务相关端口。

1.关闭防火墙

临时关闭防火墙临时关闭防火墙（立即生效）

代码块

linenumbers	true

systemctl stop firewalld

永久关闭防火墙永久关闭防火墙（重启后生效）

代码块

linenumbers	true

systemctl disable firewalld

...

代码块

linenumbers	true

systemctl status firewalld

2.开启防火墙

2、Spark集群安装

注意

title	Spark集群节点说明

主机名	组件

Spark集群节点：10

10-10-35-65

(Master)、10

	Master，work-1
10-10-35-66

(slave-1)、10

	work-2
10-10-35-67

(slave-2)

work-3

2.1 配置主机名映射

将数据挖掘组件中的服务器主机名映射到hosts文件中(所有节点均需执行此操作)

代码块

language	bash

vi /etc/hosts

文件末尾添文件末尾添加(根据实际环境信息设置)：

代码块

language	bash

10.10.35.64 10-10-35-64
10.10.35.65 10-10-35-65
10.10.35.66 10-10-35-66
10.10.35.67 10-10-35-67

...

注意

title	注意

Spark集群节点均需配置系统免密登陆

①登陆服务器，生成密钥① 登陆服务器，生成密钥

代码块

language	bash

ssh-keygen

输入ssh-keygen后，连续按三次回车，不用输入其它信息。

②复制本机公钥到其它机器② 复制本机公钥到其它机器

假设当前的系统用户为root(注意，每台机器使用同一个用户来安装), 那命令如下:

...

代码块

language	bash

java -version

2.4 安装Spark

...

登陆10-10-35-65(Master)节点操作。

①解压Spark到指定目录

代码块

language	bash

tar -zxvf spark-3.01.03-bin-hadoop3.2.tgz -C /data

...

②配置Spark从节点列表

代码块

language	bash

cd /data/spark-3.1.3-bin-hadoop3.2/conf
cp workers.template workers
vi workers

把所有spark worker节点的机器名加到workers文件中，参考如下:

代码块

language	bash

10-10-35-65
10-10-35-66
10-10-35-67

Image Added

③将Spark安装包分发到Spark Work节点(10-10-35-66(work-1)、10-10-35-67(work-2))

假设当前的系统用户为root命令如下：

代码块

language	bash

scp -r /data/spark-3.1.3-bin-hadoop3.2  root@10-10-35-66:/data/
scp -r /data/spark-3.1.3-bin-hadoop3.2  root@10-10-35-67:/data/

④在Spark Master节点(10-10-35-65(Master))启动Spark集群

代码块

language	bash

cd /data/spark-3.01.03-bin-hadoop3.2/sbin 
./start-all.sh

Image Added

2.5 检查Spark

在浏览器中输入：http://master节点的ipmaster节点的IP:8080，查看集群状态

Image Added

在spark节点提交任务测试进入/data/spark-3.01.03-bin-hadoop3.2/bin目录，执行以下命令(注意将”节点IP”替换对应的IP或主机名注意将”Spark-MasterIP”替换对应的IP或主机名)

代码块
./spark-submit --class org.apache.spark.examples.SparkPi --master spark://节点IPSpark-MasterIP:7077 /data/sp2/spark-3.01.03-bin-hadoop3.2/examples/jars/spark-examples_2.12-3.01.03.jar 100

Image Added

运行得出圆周率Pi的近似值3.14即部署成功。

2.

...

6 运维操作

登陆10-10-35-65(Master)节点操作。

启动/停止spark服务

代码块

language	bash

cd /data/spark-3.01.03-bin-hadoop3.2/sbin
./start-all.sh    #启动spark#启动spark集群
./stop-all.sh     #停止spark#停止spark集群

查看日志
Spark的日志路径：/data/spark-3.01.03-bin-hadoop3.2/logs
安装部署或者使用中有问题，可能需要根据日志来分析解决。

...

页面树结构

版本比较

旧版本 5

新版本当前版本

标识

1、系统环境准备

1.1防火墙配置1 防火墙配置

2、Spark集群安装

2.1 配置主机名映射

2.4 安装Spark

2.5 检查Spark

2.

6 运维操作

页面树结构

页面历史

版本比较

旧版本 5

新版本 当前版本

标识

1、系统环境准备

1.1防火墙配置1 防火墙配置

2、Spark集群安装

2.1 配置主机名映射

2.4 安装Spark

2.5 检查Spark

2.

6 运维操作

新版本当前版本