数据挖掘组件介绍
部署Smartbi 数据挖掘引擎单机需要部署以下组件:
服务名称 | 简介 | 备注 |
---|---|---|
数据挖掘-实验引擎 | 负责接收smartbi 发送实验执行请求。 | |
数据挖掘-服务引擎 | 提供模型预测服务给第三放系统调用 | |
Python执行节点 | python 执行环境,主要承担实验引擎发送过来的python计算任务。 可以横向扩张,实验引擎会根据负载均衡策略把python计算任务分发到不同节点。 | 可选 |
操作系统推荐:
Linux操作系统平台 | 系统版本 |
---|---|
Red Hat Enterprise Linux | 推荐7.4 及以上 |
CentOS | 推荐7.4 及以上 |
服务配置建议:
组件 | CPU | 内存 | 硬盘 | 网络 | 备注 |
---|---|---|---|---|---|
数据挖掘实验引擎 | 8核+ | 8G+ | 安装目录300G+ | 万兆网卡 | 如果资源紧张,可以跟服务引擎在同台机器 |
数据挖掘服务引擎 | 8核+ | 8G+ | 安装目录300G+ | 万兆网卡 | 如果资源紧张,可以跟实验引擎在同台机器 |
Python执行节点 | 16核+ | 32G+ | 1T+ | 万兆网卡 | 主要用于机器学习的DBSACN算法和自定义模块的python脚本扩展 如果没有用到这两个功能模块,可以不用部署python节点 强烈建议最好独立机器,避免资源争抢 |
注意事项
数据挖掘所有组件可以部署在同一台服务器,但不推荐,会导致服务器资源紧张,数据挖掘服务运行效率低的问题。
安装介质:
名称 | 软件包文件 | 说明 |
---|---|---|
数据挖掘引擎 | SmartbiMiningEngine-V11.0.tar.gz | 数据挖掘引擎主程序 |
python-3.9.13.tar.gz | Python,用于数据挖掘执行python计算任务 如不需要执行Pyhon计算任务,可不安装 | |
JDK | jdk-8u181-linux-x64.tar.gz | JAVA运行环境 |
提示
安装介质可能会版本更新,请以实际为准
关于主机名和IP地址映射:
注意事项
部署数据挖掘时,需要将Smartbi和数据挖掘组件中的服务器主机名映射到每台服务器的/etc/hosts文件中,
数据挖掘组件之间的通信会使用到主机名,如果未配置主机名和地址映射,数据挖掘在运行过程中会报错,
主机名不能以数字开头,且不能含有下划线,
Smartbi配置数据挖掘连接地址后需重启Smartbi,数据挖掘地址会自动转换为数据挖掘服务器的主机名。