数据挖掘功能概述
数据挖掘包含三大部分:数据挖掘执行引擎、数据挖掘服务引擎,数据挖掘计算节点
数据挖掘执行引擎:
- 负责接收Smartbi 发送执行请求。
- 通过解析执行定义,生成spark 计算任务或python计算任务,分别发送给计算节点。
- 本身并不承担计算任务,只负责计算任务的调度跟分发。
数据挖掘计算节点:
- 负责接收并执行从执行引擎(主节点)发过来的计算任务。
数据挖掘服务引擎:
- 提供模型预测服务给第三放系统调用
...
title | 文档环境 |
---|
文档环境如下:
...
数据挖掘集群依赖zookeeper和smartbi-proxy。
注意 | ||
---|---|---|
| ||
数据挖掘数据量2000万、15个并发任务时以下时,只需要提升数据挖掘服务器配置即可 |
系统环境准备
注意 | ||
---|---|---|
| ||
所有节点均需执行系统环境准备操作 |
...
代码块 | ||||
---|---|---|---|---|
| ||||
systemctl status firewalld |
1.2 开启防火墙
相关服务及端口对照表:
服务名 | 需要开放端口 |
---|---|
执行引擎 | 8899,4040,7777,,[30000-65535] |
服务引擎 | 8900 |
Zookeeper | 2181,2888,3888 |
smartbi-Proxy | 31082 |
如果确实需要打开防火墙安装,需要给防火墙放开以下需要使用到的端口
开启端口:8900,8899,4040,7777, [30000-65535]
...