页面历史

数据挖掘包含两大部分：数据挖掘执行引擎、数据挖掘服务引擎

数据挖掘执行引擎：

负责接收Smartbi 发送执行请求。
通过解析执行定义，生成spark 计算任务或python计算任务，分别发送计算节点。
本身并不承担计算任务，只负责计算任务的调度跟分发。
SmartbiETL功能

数据挖掘服务引擎：

提供模型预测服务给第三放系统调用

数据挖掘执行引擎和服务引擎可部署在同一台服务器中，也可以分开部署在不同服务器中。

注意

title	温馨提示

数据挖掘数据量2000万、15个并发任务时以下时，只需要提升数据挖掘服务器配置即可

1、系统环境准备

注意

title	温馨提示

配置防火墙，selinux相关操作，需要管理员权限。

1.1 防火墙配置

为了便于安装，建议在安装前关闭防火墙。使用过程中，为了系统安全可以选择启用防火墙，但必须启用服务相关端口。

1. 关闭防火墙

临时关闭防火墙（立即生效）

代码块

language	bash
linenumbers	true

systemctl stop firewalld

永久关闭防火墙（重启后生效）

代码块

language	bash
linenumbers	true

systemctl disable firewalld

查看防火墙状态

代码块

language	bash
linenumbers	true

systemctl status firewalld

2. 开启防火墙

1.2 安装Java环境

解压jdk到指定目录：

代码块

language	bash

tar -zxvf jdk-8u181-linux-x64.tar.gz -C /data

添加环境变量

代码块

language	bash

vi  ~/.bash_profile

在文件末尾添加下面内容：

代码块

language	bash

export JAVA_HOME=/data/jdk1.8.0_181
export JAVA_BIN=$JAVA_HOME/bin
export CLASSPATH=:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_BIN

让配置生效

代码块

language	bash

source  ~/.bash_profile

验证安装

代码块

language	bash

java -version

1.3 取消打开文件限制

注意

title	温馨提示

取消打开文件限制，配置主机名等操作，需要管理员权限。

修改/etc/security/limits.conf文件在文件的末尾加入以下内容：

代码块

language	bash
linenumbers	true

vi /etc/security/limits.conf

在文件的末尾加入以下内容：

代码块

language	bash
linenumbers	true

* soft nofile 65536
* hard nofile 65536
* soft nproc 131072
* hard nproc 131072

1.4添加主机名映射关系

将数据挖掘组件中的服务器主机名映射到hosts文件中

代码块

language	bash

vi /etc/hosts

文件末尾添(根据实际环境信息设置)：

代码块

language	bash

10.10.35.133 10-10-35-133

注意

title	注意！

部署smartbi服务器的/etc/hosts，需要添加所有数据挖掘组件的主机和IP地址映射

2、部署数据挖掘引擎

注意

对于自定义驱动的业务库数据源，在部署数据挖掘引擎时需要将驱动包放到部署挖掘引擎主机的<smartbi-engine-bin>/conf/lib对应数据库的目录里面。然后重启数据挖掘服务。

举例：

1、若星环是自定义驱动的，则将驱动包放进hive目录中，重启数据挖掘服务。

2、若oracle是自定义驱动的，则将驱动包放进oracle目录中，重启数据挖掘服务。

2.1 安装数据挖掘-执行引擎

注意

title	温馨提示

1、安装部署、启动数据挖掘执行引擎，服务引擎等，可以使用普通用户权限进行操作。

2、部署过程中用普通用户操作，则后续的所有运维操作等，都需要用普通用户来执行。如果切换其他用户操作，可能会因为权限问题导致服务启动失败。

3、数据挖掘的执行引擎或服务引擎的端口配置如果小于1024，也需要管理员权限才能启动服务。

1、解压Smartbi-engine安装包到指定的安装目录

代码块

language	bash
linenumbers	true

tar -zxvf SmartbiMiningEngine-V11.0.tar.gz -C /data

2、启动数据挖掘执行引擎

代码块

language	bash
linenumbers	true

 cd /data/smartbi-mining-engine-bin/engine/sbin/
./experiment-daemon.sh start

2.2 安装数据挖掘-服务引擎

注意

title	注意事项

由于文档中服务引擎与执行引擎部署在同一台服务器，所以无需重复设置系统环境。

如果服务引擎与执行引擎部署在不同服务器时，服务引擎系统环境设置可参考执行引擎的配置。

1、启动数据挖掘服务引擎

代码块

language	bash
linenumbers	true

cd /data/smartbi-mining-engine-bin/engine/sbin/
./service-daemon.sh start

2.3 配置数据挖掘

注意
默认数据挖掘使用本地模式。

1、数据挖掘连接测试：

①浏览器访问Smartbi，打开运维设置–数据挖掘配置–引擎设置，引擎地址和服务地址设置成正确的数据挖掘引擎地址，并点击保存

注意

title	注意事项

修改引擎和服务地址后，需要点击保存，否则执行引擎和服务引擎可能会显示空白页，或者报错。

配置数据挖掘地址后，首次测试引擎地址，会提示“平台到引擎连接成功，引擎到平台连接失败，请检查引擎配置”

首次测试服务地址则会提示“平台到服务连接成功，服务到平台连接失败，请检查服务配置”

②打开系统运维–数据挖掘配置–执行引擎--引擎配置，参考以下格式修改“系统api地址”(根据实际环境修改)，修改完成后点击保存：

http:// Smartbi IP 地址 : port /smartbi/smartbix/api/monitor

③打开系统运维–数据挖掘配置–执行引擎--计算节点配置，参考下图设置，修改完成后点击保存

数据挖掘计算节点默认为local模式

④打开系统运维–数据挖掘配置–服务引擎，参考以下格式修改“系统api地址”(根据实际环境修改)，修改完成后点击保存：

http:// Smartbi IP 地址 : port /smartbi/smartbix/api/monitor

⑤执行引擎和服务引擎完成设置、保存后，返回 系统运维–数据挖掘配置–引擎设置，重新点击测试，如下提示表示配置成功：

2.4 测试数据挖掘

参考测试数据挖掘及其组件

3、添加挖掘计算节点

注意

title	前置条件

数据挖掘数据量2000万、15个并发任务时以下时，只需要提升数据挖掘服务器配置即可

数据量和并发数超出时，可部署多个挖掘计算节点，数据挖掘会将计算任务调度到部署的计算机点

3.1 基础环境准备

新计算节点环境参考文档【1、系统环境准备】章节完成基础环境配置。

3.2启动挖掘计算节点

1、解压Smartbi-engine安装包到指定的安装目录

代码块

language	bash
linenumbers	true

tar -zxvf SmartbiMiningEngine-V11.0.tar.gz -C /data

2、登陆smartbi服务器，打开运维设置–数据挖掘配置–引擎设置，复制Spark代理器启动命令 ，

注意

title	注意

复制命令前需要确认挖掘引擎测试连接正常

2、启动数据挖掘计算节点

代码块

language	bash
linenumbers	true

 cd /data/smartbi-mining-engine-bin/engine/sbin/
./agent-daemon.sh start --master http://10.10.35.133:8899 --env spark    #注意替换成实际复制的启动命令

等待启动完成即可。

3.3 更新数据挖掘计算节点

注意

title	注意

数据挖掘计算节点需要和数据挖掘版本一致

1、停止正在运行的数据挖掘计算节点

代码块

language	bash
linenumbers	true

cd /data/smartbi-mining-engine-bin/engine/sbin
./agent-daemon.sh stop     #停止计算节点

2、上传并解压新版本的数据挖掘包

代码块

language	bash
linenumbers	true

#解压新版本安装包至/tmp目录
tar -zxvf SmartbiMiningEngine-V11.0.2023.tar.gz -C /tmp

3、更新替换数据挖掘版本安装包

代码块

language	bash
linenumbers	true

cd /data/smartbi-mining-engine-bin
#重命名旧版本engine目录，后续版本更新完成后可删除
mv engine engine_bk    
#新版本挖掘包复制至部署目录
cp -ra /tmp/smartbi-mining-engine-bin/engine  /data/smartbi-mining-engine-bin

4、重新启动数据挖掘计算节点

代码块

language	bash
linenumbers	true

cd /data/smartbi-mining-engine-bin/engine/sbin
./agent-daemon.sh start --master http://10.10.35.133:8899 --env spark

启动完成后，运行挖掘实验检查是否升级成功即可。

4、运维操作

4.1 更新数据挖掘

数据挖掘版本更新可参考以下步骤：

1、停止正在运行的数据挖掘服务

代码块

language	bash
linenumbers	true

cd /data/smartbi-mining-engine-bin/engine/sbin
./experiment-daemon.sh stop      #停止执行引擎
./service-daemon.sh stop         #停止服务引擎

2、上传并解压新版本的数据挖掘

代码块

language	bash
linenumbers	true

#解压新版本安装包至/tmp目录
tar -zxvf SmartbiMiningEngine-V11.0.2023.tar.gz -C /tmp

3、更新替换数据挖掘版本安装包

代码块

language	bash
linenumbers	true

cd /data/smartbi-mining-engine-bin
#重命名旧版本engine目录，后续版本更新完成后可删除
mv engine engine_bk    
#新版本挖掘包复制至部署目录
cp -ra /tmp/smartbi-mining-engine-bin/engine  /data/smartbi-mining-engine-bin

4、重新启动数据挖掘服务

代码块

language	bash
linenumbers	true

cd /data/smartbi-mining-engine-bin/engine/sbin
./experiment-daemon.sh start      #启动执行引擎
./service-daemon.sh start         #启动服务引擎

启动完成后，运行挖掘实验检查是否升级成功即可。

4.2 查看数据挖掘运行状态

1、启动/重启/查看数据挖掘引擎状态

代码块

language	bash
linenumbers	true

cd /data/smartbi-mining-engine-bin/engine/sbin
./experiment-daemon.sh restart   #重启执行引擎
./experiment-daemon.sh stop      #停止执行引擎
./experiment-daemon.sh status    #查看执行引擎运行状态

./service-daemon.sh restart      #重启服务引擎
./service-daemon.sh stop         #停止服务引擎
./service-daemon.sh status       #查看服务引擎运行状态

4.3 查看日志信息

数据挖掘的日志路径：<smartbi-mining-engine-bin>/logs
安装部署或者使用中有问题，可能需要根据日志来分析解决。

experiment.log：数据挖掘执行引擎日志

service.log：数据挖掘服务引擎日志

agent-logs/agent.log：数据挖掘计算节点日志

4.4

其他常见运维操作

修改jvm参数

启动数据挖掘服务后，在engine的同级目录会生成conf目录，用来保存数据挖掘相关配置信息文件的目录。

修改内存，可以编辑conf/engine-env.sh文件，具体如下图所示

Image Added

注意

title	温馨提示

如需修改配置信息，需要删除对应配置行开头的#号

4.5 设置开机启动服务

1、设置数据挖掘开机启动

注意

title	温馨提示

配置开机启动，需要管理员权限。

进入/etc/init.d目录，创建数据挖掘-执行引擎启动配置文件

代码块

linenumbers	true

vi /etc/init.d/mining-engine

配置参考如下：

代码块

language	bash
linenumbers	true

#!/bin/bash
#
# tomcat startup script for the mining-engine server
# chkconfig: 345 80 20
# description: start the mining-engine deamon
#
# Source function library
. /etc/rc.d/init.d/functions

prog=mining-engine
JAVA_HOME=/data/jdk1.8.0_181/       #注意替换成实际的JAVA部署路径
export JAVA_HOME
MINING_HOME=/data/smartbi-mining-engine-bin/engine/      #注意替换成实际的数据挖掘部署路径
export MINING_HOME 

case "$1" in
start)
    echo "Starting mining-engine..."
    $MINING_HOME/sbin/experiment-daemon.sh start
    ;;

stop)
    echo "Stopping mining-engine..."
    $MINING_HOME/sbin/experiment-daemon.sh stop
    ;;

restart)
    echo "Stopping mining-engine..."
    $MINING_HOME/sbin/experiment-daemon.sh stop
    sleep 2
    echo
    echo "Starting mining-service..."
    $MINING_HOME/sbin/experiment-daemon.sh start
    ;;

*)
    echo "Usage: $prog {start|stop|restart}"
    ;;
esac
exit 0

进入/etc/init.d目录，创建数据挖掘-服务引擎启动配置文件

代码块

linenumbers	true

vi /etc/init.d/mining-service

配置参考如下：

代码块

language	bash
linenumbers	true

#!/bin/bash
#
# tomcat startup script for the mining-service server
# chkconfig: 345 80 20
# description: start the mining-service deamon
#
# Source function library
. /etc/rc.d/init.d/functions

prog=mining-service
JAVA_HOME=/data/jdk1.8.0_181/      #注意替换成实际的JAVA部署路径
export JAVA_HOME
MINING_HOME=/data/smartbi-mining-engine-bin/engine/      #注意替换成实际的数据挖掘部署路径
export MINING_HOME 

case "$1" in
start)
    echo "Starting mining-service..."
    $MINING_HOME/sbin/service-daemon.sh start
    ;;

stop)
    echo "Stopping mining-service..."
    $MINING_HOME/sbin/service-daemon.sh stop
    ;;

restart)
    echo "Stopping mining-service..."
    $MINING_HOME/sbin/service-daemon.sh stop
    sleep 2
    echo
    echo "Starting mining-service..."
    $MINING_HOME/sbin/service-daemon.sh start
    ;;

*)
    echo "Usage: $prog {start|stop|restart}"
    ;;
esac
exit 0

进入/etc/init.d目录，创建数据挖掘-计算节点启动配置文件

代码块

linenumbers	true

vi /etc/init.d/mining-spark

配置参考如下：

代码块

language	bash
linenumbers	true

#!/bin/bash
#
# tomcat startup script for the mining-spark  server
# chkconfig: 345 80 20
# description: start the mining-spark deamon
#
# Source function library
. /etc/rc.d/init.d/functions

prog=mining-service
JAVA_HOME=/data/jdk1.8.0_181/      #注意替换成实际的JAVA部署路径
export JAVA_HOME
MINING_HOME=/data/smartbi-mining-engine-bin/engine/      #注意替换成实际的数据挖掘部署路径
export MINING_HOME 

case "$1" in
start)
    echo "Starting mining-spark  ..."
    $MINING_HOME/sbin/agent-daemon.sh start --master http://10.10.35.133:8899 --env spark    #注意替换成实际的挖掘地址信息
    ;;

stop)
    echo "Stopping mining-spark ..."
    $MINING_HOME/sbin/./agent-daemon.sh stop
    ;;

restart)
    echo "Stopping mining-spark  ..."
    $MINING_HOME/sbin/./agent-daemon.sh stop
    sleep 2
    echo
    echo "Starting mining-spark ..."
    $MINING_HOME/sbin/agent-daemon.sh start --master http://10.10.35.133:8899 --env spark   #注意替换成实际的挖掘地址信息
    ;;

*)
    echo "Usage: $prog {start|stop|restart}"
    ;;
esac
exit 0

设置开机启动

代码块

linenumbers	true

chmod +x /etc/init.d/mining-engine    #添加执行权限
chmod +x /etc/init.d/mining-service   #添加执行权限
chmod +x /etc/init.d/mining-spark     #添加执行权限
chkconfig mining-engine on            #添加到开机启动
chkconfig mining-service on           #添加到开机启动
chkconfig mining-spark on             #添加到开机启动
chkconfig --list                     #查看开机启动服务列表

服务名	需要开放端口
执行引擎	8899,4040,7777, [30000-65535]
服务引擎	8900

页面树结构

版本比较

旧版本 8

新版本 9

标识

1、系统环境准备

1.1 防火墙配置

1.2 安装Java环境

1.3 取消打开文件限制

1.4添加主机名映射关系

2、部署数据挖掘引擎

2.1 安装数据挖掘-执行引擎

2.2 安装数据挖掘-服务引擎

2.3 配置数据挖掘

2.4 测试数据挖掘

3、添加挖掘计算节点

3.1 基础环境准备

3.2启动挖掘计算节点

3.3 更新数据挖掘计算节点

4、运维操作

4.1 更新数据挖掘

4.2 查看数据挖掘运行状态

4.3 查看日志信息

4.4

修改jvm参数

4.5 设置开机启动服务