第53页,共108页。 显示 1,077 条结果 (0.073 秒)
数据挖掘-自定义离散
概述 将连续的属性进行离散化操作,方便数据挖掘处理。用户可自定义规则进行离散化操作。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出增加了离散后的字段的数据集。 参数设置 参数名称 说明 备注 自定义规则 区间:以英文逗号分隔离散区间,负无穷为-INF,正无穷为INF。 区间为空时,默认该字段不做离散处理。 必填。 区间填写示例:-INF,30,60, 90,INF 新增列后缀 离散后会生成新的字段,默认在原有字段名后追加Buckrizer后缀。该后缀支持修改数据挖掘-SMOTE
概述 SMOTE算法通过对少数样本的分析可以合成新的样本,是一种过采样技术。 image2020-9-1_16-42-57.png 输入输出 输入 只有一个输入端口,用于接收原始数据集。 输出 只有一个输出端口,用于输出过采样后的全部数据集。 参数说明 设置SMOTE的参数: image2020-11-6_17-9-21.png 设置项说明如下: 参数 说明 备注 选择标签列 用于选择输入数据集的某一列作为标签列。 单选 标签类别 输入目标列中需要进行SMOTE算法的类别值。 文本框,标签的类别值(必填数据挖掘 – 相似集计算(LSH)
该功能为V10.5版本功能。 概述 使用训练好的LSH模型,对两份数据中的向量进行相似度匹配,把相似度距离低于预设阈值的组合输出到结果。 输入/输出 输入 三个输入端口,输入1接收训练好的LSH模型,输入2和3接收要进行匹配的数据。 输出 一个输出端口,用于输出匹配后的结果。 参数设置 参数名称 说明 备注 相似阈值 设置相似度距离阈值 距离低于阈值的组合才会被输出 示例 相似集1.png 效果 分别接入LSH模型,数据1和数据2,其中数据1和数据2都已使用词向量模型对其文本进行转换。把相似阈值设为0.45,输出如何使用作业流中的”检查字段值“节点
1、概念 2、输入/输出 输入 一个输入端口,用于连接节点。 输出 一个输出端口,根据检查结果判断是否执行后续有依赖的作业。 3、参数说明 2.png 序号 功能选项 说明 1 数据源 可以选择有权限查看的数据源 1 数据类型 必填; 数值型和非数值型; 2 条件 跟着”数据类型“改变而改变; 数值型包含:等于、不等于、大于、小于、小于等于、小于等于; 非数值型:比如字符串、日期、时间等,包含:等于、不等于、包含、不包含、开头为、非开头为、结束为 3 值类型 值数据挖掘-过滤
概述 根据用户需求,通过写SQL语句(片段)的方式,对数据集中指定字段进行条件筛选过滤。 image2020-9-8_9-10-20.png 10.5.15版本后,左侧资源树不再显示过滤节点,但是旧的过滤节点仍能正常使用,建议使用最新的行过滤节点完成过滤操作。 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出过滤的结果。 参数设置 设置过滤与映射的参数: image2020-5-21 13:58:29.png 设置说明如下: 参数 说明 过滤器 对数据的指定字段进行过滤错误信息:ErrImagePull或ImagePullBackOff
图: image2020-9-30_13-39-11.png 产生原因: 服务器开放了防火墙,防火墙未开放Harbor的5000端口 解决办法: 开放Harbor使用的端口号: firewall-cmd --permanent --add-port=5000/tcp firewall-cmd --reload 再服务引擎
针对挖掘服务的设置项。 服务引擎页面如下: 66.png 各设置项说明如下: 序号 名称 说明 1 引擎服务端口 实验引擎的服务端口 2 引擎高可用时连接zookeeper地址 引擎高可用时,使用zookeeper进行主备选举,ip:port格式,如有多个zookeeper节点则为ip1:port1,ip2:port2,ip3:port3 使用逗号分隔。 3 引擎高可用设置,默认为不可用 是否启用引擎高可用,默认为false,即不启用引擎高可用。 4 系统api地址 实验引擎访问Smartbi的api地址。 5 节点数据是否存储 实验引擎数据挖掘–指数平滑
概述 时间序列算法中常用的算法有指数平滑法,其中指数平滑常用的几种形式有(Brown)一次指数平滑、二次指数平滑、三次指数平滑、以及(Holt)双参数、(Holt-Winters)季节性指数平滑法。本节点实现的是布朗(Brown)的一次、二次、三次指数平滑。 输入/输出 输入 一个输入端口,接收要进行预测的数据 输出 一个输出端口,用于输出预测后的结果 示例 如图,指数平滑节点输入端接入数据,可以使用对应的平滑算法对输入数据进行转换。 image2023-1-15_0-38-46.png image2023-1-15_0-39-0.png 输出结果中增加两列。第一列是拟合数据挖掘-卡方特征选择
概述 卡方特征选择与特征选择的功能类似,都是用于筛选特征到算法节点。卡方特征选择是根据卡方检验的数据相关性对特征变量进行排序,然后选择与目标变量相关性较大的特征变量。不同之处是卡方特征选择只设置需要选择的特征数量,然后该节点会根据目标字段列自动选择最相关的特征。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择特征列 用于设置待选择的特征列(人工选择可能相关的特征列) 必填(特征列中不能含有null) 选择标签列 用于设置数据挖掘-PCA(主成分分析)
概述 PCA(主成分分析)是统计学上一种常用的方法,主要用来对高维数据进行降维,通过对多个维度进行线性组合,获得较少且能够描述数据特征的主成分指标,减少由于数据维度过多带来的庞大计算量,降低算法的复杂度,使用最少数量的主成分来解释最大量的方差。因为它可减少变量数目以此避免多重共线性,适用于预测变量较多大于观测值数目的情况。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择特征列 用于设置待选择的特征列 必填(特征列中不能含有