页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

数据挖掘功能概述

数据挖掘包含三大部分:数据挖掘执行引擎、数据挖掘服务引擎,数据挖掘计算节点

数据挖掘执行引擎:

  • 负责接收Smartbi 发送执行请求。
  • 通过解析执行定义,生成spark 计算任务或python计算任务,分别发送给计算节点。
  • 本身并不承担计算任务,只负责计算任务的调度跟分发。

数据挖掘计算节点:

  • 负责接收并执行从执行引擎(主节点)发过来的计算任务。

数据挖掘服务引擎:

  • 提供模型预测服务给第三放系统调用

...

title文档环境

文档环境如下:

...

数据挖掘集群依赖zookeeper和smartbi-proxy。

注意
title前置条件

数据挖掘数据量2000万、15个并发任务时以下时,只需要提升数据挖掘服务器配置即可

系统环境准备

注意
title文档环境

所有节点均需执行系统环境准备操作

...

代码块
languagebash
linenumberstrue
systemctl status firewalld

1.2 开启防火墙

相关服务及端口对照表:

服务名需要开放端口
执行引擎

8899,4040,7777,,[30000-65535]

服务引擎8900
Zookeeper2181,2888,3888
smartbi-Proxy31082

如果确实需要打开防火墙安装,需要给防火墙放开以下需要使用到的端口
开启端口:8900,8899,4040,7777, [30000-65535]

...