第47.6页,共90页。 显示 897 条结果 (0.025 秒)
数据挖掘-日期时间
概述 用户在录入日期类型数据时,经常会遇到日期格式不统一的问题。 image2023-1-29_14-9-3.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出日期时间处理后的结果。 参数设置 设置日期时间处理的参数: image2023-1-29_14-9-56.png 设置说明如下: 参数 说明 选择列 要进行日期时间处理的列。 新增列后缀 输出结果的列名后缀。 输入字段格式 输入字段的日期时间格式 输出字段格式 处理后输出字段的日期时间格式数据挖掘 – 相似集计算(LSH)
该功能为V10.5版本功能。 概述 使用训练好的LSH模型,对两份数据中的向量进行相似度匹配,把相似度距离低于预设阈值的组合输出到结果。 输入/输出 输入 三个输入端口,输入1接收训练好的LSH模型,输入2和3接收要进行匹配的数据。 输出 一个输出端口,用于输出匹配后的结果。 参数设置 参数名称 说明 备注 相似阈值 设置相似度距离阈值 距离低于阈值的组合才会被输出 示例 相似集1.png 效果 分别接入LSH模型,数据1和数据2,其中数据1和数据2都已使用词向量模型对其文本进行转换。把相似阈值设为0.45,输出服务引擎
针对挖掘服务的设置项。 服务引擎页面如下: 223.png 各设置项说明如下: 序号 名称 说明 1 引擎服务端口 实验引擎的服务端口 2 引擎高可用时连接zookeeper地址 引擎高可用时,使用zookeeper进行主备选举,ip:port格式,如有多个zookeeper节点则为ip1:port1,ip2:port2,ip3:port3 使用逗号分隔。 3 引擎高可用设置,默认为不可用 是否启用引擎高可用,默认为false,即不启用引擎高可用。 4 系统api地址 实验引擎访问Smartbi的api地址。 5 节点数据是否存储 实验引擎数据挖掘-去除重复值
概述 去除重复值是用于删除数据集中的重复行(假如有两行相同,保留其中一行)。 image2020-5-29 14:4:51.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出去除重复值的结果。 参数设置 设置去除重复值的参数: image2021-9-23_15-33-52.png 设置说明如下: 参数 说明 选择列 用于选择进行去除重复值设置的列: image2021-9-23_15-34-14.png 示例 1、原先关系数据源的输出结果有12条数据,对其进行去除数据挖掘-排序
概述 排序节点可实现对单个字段或多个字段组合的升序或降序排序。 image2020-5-29 15:34:25.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出排序的结果。 参数设置 设置排序的参数: image2020-5-29 15:35:36.png 设置说明如下: 参数 说明 排序 用于选择排序字段及排序优先级: image2020-5-29 15:36:42.png 1、添加排序:添加排序字段,可单选或多选排序列。 当选择多列时,平台会根据选择的第一列进行排序数据挖掘-标准化
概述 标准化数据使数据具有单位标准差归一化或平均数据中心化。 单位标准差归一化:将输入数据进行单位标准差归一化,使转换后的数据具有单位标准差; 平均数据中心化:将输入数据进行中心化,使转换后的数据均值为0。 如果某个特征的标准差为0,则该特征的返回结果也为0。 输入/输出 输入 没有输入端口 输出 一个输出端口,与抽取、变换节点组合使用 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 图片17.png 单位标准差归一化数据挖掘-拆分列
概述 拆分列节点是根据特定的分隔符,将字符串字段的内容进行分割。 image2021-1-8_17-45-45.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出拆分列的结果。 参数设置 设置拆分列的参数: image2021-12-17_9-27-40.png 设置说明如下: 参数 说明 选择列 选择需要分割的列。 数据源分隔符 分隔符:逗号、分号、空格、tab、- 。 自定义分隔符: 自定义分隔符为特殊分隔符时,请输入对应的转义字符。 常用特殊分隔符的转义数据挖掘-相关性分析
概述 相关性分析是用来反映变量之间的相关关系的密切程度。相关系数的取值一般介于-1和1之间。当相关系数为正的时候,意味着变量之间是正相关的;当相关系数为负的时候,意味着变量之间是负相关。 相关性分析常用在数据探索阶段,当我们并不了解原始数据各字段之间的关系时,通过相关性分析,可以看到各个字段之间的相关性,其后进行的数据分析工作可以围绕这些相关性展开。 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出相关系数的数据集。 参数设置 参数名称 说明 备注 选择列 用于选择进行相关性分析的字段列 必填数据挖掘-全表统计
概述 全表统计是对观测数据进行不同的统计分析,可统计信息:最小值、最大值、平均值、标准差、方差、总和、行数、唯一值、缺失值、偏度、峰度、中位数、下四分位、上四分位、众数等指标;还可使用箱线图和直方图尽可能简单全面表达数据所蕴含的数值范围、分布等信息。 输入/输出 输入 一个输入端口,用于接收数据集 输出 没有输出端口 参数设置 参数名称 说明 备注 选择列 选择需要统计的特征列(列数<=10) 必填 可选统计 选择需要的指标进行统计分析。可选的指标:偏度、峰度、总和、众数、方差、标准差、缺失值。 使用全表统计节点默认统计的指标数据挖掘-RFM
概述 通过对选择的特征列按照阈值进行二分(可按均值、指定值、中值),将客户数据划分为不同的客群。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择特征列 可选列:选择需要进行划分的字段,仅可选数值型字段; 划分方法:可按均值、中值和指定值进行二分; 指定值:当划分方法选择指定值时,用于设置划分的阈值; 必填 示例 使用“航空公司客户价值分析”数据,划分结果生成两个标签列BinaryClass和RFMClass