数据挖掘包含两大部分:数据挖掘执行引擎、数据挖掘服务引擎
数据挖掘执行引擎:
- 负责接收smartbi 发送执行请求。
- 通过解析执行定义,生成spark 计算任务或python计算任务,分别发送给spark集群或python集群。
- 本身并不承担计算任务,只负责计算任务的调度跟分发。
数据挖掘服务引擎:
- 提供模型预测服务给第三放系统调用
文档环境
集群部署数据挖掘组件环境如下:
服务器IP | 主机名 | 组件实例 | 部署目录 |
---|---|---|---|
10.10.35.64 | 10-10-35-64 | 数据挖掘-1,Zookeeper-1,Python-1 | /data |
10.10.35.65 | 10-10-35-65 | 数据挖掘-2,Spark-1,Hadoop-1 | /data |
10.10.35.66 | 10-10-35-66 | Spark-2,Zookeeper-2,Hadoop-2 | /data |
10.10.35.67 | 10-10-35-67 | Spark-3,Zookeeper-3,Hadoop-3,Python-2 | /data |