第75页,共578页。 显示 5,780 条结果 (0.124 秒)
Smartbi V10.5-数据挖掘
注意:(新特性列表中:+表示新增;^表示增强) 具体改进点如下: 新增 增强 +【数据挖掘】文本分析新增LSH、相似集计算(LSH)节点 +【数据挖掘】支持导出PMML模型文件 +【数据挖掘】朴素贝叶斯、决策树、多层感知机等算法支持自动调参设置 +【数据挖掘】新增ETL和挖掘实验日志 +【自助ETL/数据挖掘/ETL高级查询】数据源新增FTP数据源 ^【数据挖掘】关系目标表支持GaussDB 200数据库 ^【自助ETL/数据挖掘】关系数据源节点兼容更多数据源 ^【数据挖掘】异常值处理节点新增删除异常行功能 +【数据挖掘】文本分析新增LSH功能示例-跨库数据集
概述说明 自助数据集支持跨库查询,当用户查询数据的范围比较广,并不限于一个数据库时,可以跨多个数据库进行查询。 实现跨库查询的前提条件:保证系统中的“跨库联合数据源”和“高速缓存数据库”有效,且进行跨库查询的数据库已经同步到跨库联合数据源中。 目前支持做跨库的数据源类型包括:高速缓存库、Hadoop_Hive、星环、Vertica、CH、Greenplum、Infobright、Oracle、DB2 V9、MySQL、MS SQL Server、Spark SQL、Teradata_v12、Informix、IMPALA、PostgreSQL。 示例分析 业务需求描述 某企业的生产部门和销售部门有各自的数据信息存储库Echarts图形-扩展属性:鼠标提示 - 地图鼠标提示、数据标签(指标值)相关设置
本身不支持对热力地图的鼠标提示设置,目前暂无法实现。 image2020-7-28_18-36-32.png image2020-7-28_18-52-13.png 问题2 指标值-在地图上直接显示数据标签即显示相关指标,并且标签内容为对应的区域信息 思路 V7版本及V97以上版本可参考此文档 地图上显示指标 … 值 https://history.wiki.smartbi.com.cn/pages/viewpage.action?pageId=33063032 中只有一个指标值的扩展属性,需要怎么实现 思路 步骤:基于数据集或者电子表格静态数据做echarts图形,勾选两个指标,同时子图选择散点地图Infobright 数据迁移到 SmartbiMppMD
由于V10版本后不再支持Inforbright作为高速缓存库,因此需要更换为其它支持适配的数据库,采用“WindowsEXE安装包”方式部署的,需要将 Inforbright 更换为 SmartbiMppMD。 如果用户仍然想使用 Infobright 作为高速缓存库,那就需要回退到V9版本。 切换高速缓存库后,如需正常访问原本基于Infobright建立的资源,请参考以下方案: ① 通过Infobright抽取其他数据连接中的数据,切换高速缓存库后,只需重新抽取数据即可。 ② 通过“Excel导入”导入的数据,可以通过参考此文档将数据迁移到SmartbiMppMD。 一、升级说明 1、升级步骤 ① 导出Infobright 数据迁移到 SmartbiMppMD
由于V10版本后不再支持Inforbright作为高速缓存库,因此需要更换为其它支持适配的数据库,采用“WindowsEXE安装包”方式部署的,需要将 Inforbright 更换为 SmartbiMppMD。 如果用户仍然想使用 Infobright 作为高速缓存库,那就需要回退到V9版本。 切换高速缓存库后,如需正常访问原本基于Infobright建立的资源,请参考以下方案: ① 通过Infobright抽取其他数据连接中的数据,切换高速缓存库后,只需重新抽取数据即可。 ② 通过“Excel导入”导入的数据,可以通过参考此文档将数据迁移到SmartbiMppMD。 一、升级说明 1、升级步骤 ① 导出数据挖掘-拆分
概述 拆分是将原始样本集按照训练集和测试集的方式拆分为两个子集。拆分后各个子集的比例总和小于等于100%。 数据拆分经常作为回归或者分类算法节点的前置节点。 image2020-5-21 16:32:33.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 两个输出端口,用于输出不同的拆分结果。 参数设置 设置拆分的参数: image2020-5-29 14:11:34.png 设置说明如下: 参数 说明 数据集占比 表示用于算法模型训练的数据集占总体数据的比例,范围是[0,1]的数值,默认是0.7。 随机种子 作为随机数据挖掘-拆分
概述 拆分是将原始样本集按照训练集和测试集的方式拆分为两个子集。拆分后各个子集的比例总和小于等于100%。 数据拆分经常作为回归或者分类算法节点的前置节点。 image2020-5-21 16:32:33.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 两个输出端口,用于输出不同的拆分结果。 参数设置 设置拆分的参数: image2020-5-29 14:11:34.png 设置说明如下: 参数 说明 数据集占比 表示用于算法模型训练的数据集占总体数据的比例,范围是[0,1]的数值,默认是0.7。 随机种子 作为随机数据挖掘-JOIN
概述 JOIN是基于连接字段和给定的连接方式,进行两个数据集字段的组合后得到新的数据表。 支持两个数据表的单个或多个字段为连接字段,连接方式包括左连接、右连接、内连接、全连接。 image2020-5-22 10:24:17.png 输入/输出 输入 两个输入端口,用于接收两个数据集。 输出 一个输出端口,用于输出连接后的结果。 参数设置 设置JOIN的参数: image2020-6-2 15:49:9.png 设置说明如下: 参数 说明 选择左表字段 用于选择通过左侧输入端口连接的前置节点资源输出的数据集的列数据挖掘-多表JOIN
概述 多表JOIN是基于连接字段和给定的连接方式,将多个数据集合并为一张新的数据表。 支持单个或多个字段为连接字段,连接方式包括左连接、右连接、内连接、全连接。 image2021-6-28_10-29-24.png 输入/输出 输入 六个输入端口,用于接收数据集。 输出 … 表 用于关联通过输入端口连接的前置节点资源输出的数据集。 右表 用于关联通过输入端口连接的前置节点资源输出的数据集。 连接类型 用于设置JOIN的连接类型: 左连接:返回选择的左右表字段中,左表的全部数据和右表中满足关联条件的数据。 右连接:返回选择的左右表字段中,右表的全部数据和左表中数据挖掘-JOIN
概述 JOIN是基于连接字段和给定的连接方式,进行两个数据集字段的组合后得到新的数据表。 支持两个数据表的单个或多个字段为连接字段,连接方式包括左连接、右连接、内连接、全连接。 image2020-5-22 10:24:17.png 输入/输出 输入 两个输入端口,用于接收两个数据集。 输出 一个输出端口,用于输出连接后的结果。 参数设置 设置JOIN的参数: image2020-6-2 15:49:9.png 设置说明如下: 参数 说明 选择左表字段 用于选择通过左侧输入端口连接的前置节点资源输出的数据集的列