搜索

Help

第48页,共108页。 显示 1,077 条结果 (0.065 秒)

  1. 数据挖掘-特征选择

    概述 特征选择的作用是从数据集中选取有用特征,用于分类预测或者回归预测算法的训练; 其中:标签列必选,但是只有分类回归预测算法才需要选择标签列,聚类训练时则不需要选择标签列。当与特征节点组合使用时则不需要选择标签列。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择特征列 用于选择做为特征列的字段 必填 选择标签列 用于选择做为标签列的字段 分类、回归算法必填、聚类算法及组合使用不需要选择 示例 特征选择中
  2. 数据挖掘-特征转换

    概述 特征转换是实现特征类型的转换,将类别型变量转换为数值型变量,方便算法训练学习计算。 例如:将特征列中“男”“女”变量转换为0、1的数值。结合特征抽取中抽取和变换节点组合使用。 输入/输出 输入 没有输入端口。 输出 一个输出端口,用于接入下一个节点,与抽取节点组合使用。 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Index; 该节点与抽取、变换节点组合使用; 图片1.png 示例 使用“鸢尾花数据”,将种类(Species)该列的类别型数据变换
  3. 数据挖掘-正则化

    概述 用于标准化输入数据,使每个向量具有单位范数;Normalizer需要输入参数p,指定标准化范数,默认值为2;该标准化方法可用于提升算法效果。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择列 用于选择需要正则化的列。 必填,列数<=10 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 P范数 指定标注化范数。 必填
  4. 数据挖掘-预测

    概述 预测节点是根据训练集以及各种分类或回归算法对测试集进行结果预测。  输入/输出 输入 两个输入端口,左边输入为已训练的模型或者已保存的模型,右边输入为测试集。 输出 一个输出端口,输出测试集的预测结果。 示例 以逻辑回归为例,如下图:  图片41.png 点击预测节点右键可查看预测结果输出。 输出字段 输出字段 概念及其作用 features 特征向量,是由特征列组成的特征向量。 featuresNormalized 归一化后的特征向量,将特征向量进行归一化转换。 rawPrediction 直接概率,即每个可能标签置信度的度量
  5. 数据挖掘-评估

    概述 评估节点是对分类算法模型和回归模型的预测效果进行评估,检验模型在分类任务中的表现或者检验其在回归任务中的可靠性。 “评估”节点的前置节点必须是“预测”。 输入/输出 输入 只有一个输入端口,用于接收预测结果。 输出 没有输出端口。 示例  图片42.png 点击右键可以查看评估结果。针对分类与回归及无监督算法提供不同的评估指标。 分类预测模型评价指标如下图: image2020-11-9_11-7-13.png 回归预测模型评价指标如下图: image2020-11-9_11-8-36.png 聚类分析效果如下图: 图片45.png 评估
    Smartbi Insight V10帮助中心十一月 09, 2020
  6. 数据挖掘-评分卡输出

    概述 评分卡输出用于查看已训练的评分卡模型中,各个变量离散后各分箱的WOE值,iv值及其对评分分数的贡献,可作为对评分卡模型的分析。 输入/输出 输入 一个输入端口,接收训练好的评分卡模型 输出 一个输出端口,用于输出评分卡分析结果 示例 图片3.png 评分卡输出节点的输出结果具体如下: 图片4.png 其中,前三列为各个变量的分箱信息;woe值和IV值反映了该变量分箱的预测偏向和能力;最后两列为该变量分箱对应的转换前和转换后的评分分数,由评分卡模型输出。
  7. 数据挖掘-过滤

    概述 根据用户需求,通过写SQL语句(片段)的方式,对数据集中指定字段进行条件筛选过滤。 image2020-9-8_9-10-20.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出过滤的结果。 参数设置 设置过滤与映射的参数: image2020-5-21 13:58:29.png 设置说明如下: 参数 说明 过滤器 对数据的指定字段进行过滤。 image2020-5-21 11:42:59.png 示例 1、原先示例数据源的输出结果有150条数据,对其进行过滤
  8. 数据挖掘-最小最大归一化

    概述 最小最大值归一化是对原始数据的线性变换,使结果映射到[0,1]区间。设minA和maxA分别为特征A的最小值和最大值,将A的一个原始值x通过MinMaxScaler映射到区间[0,1]间,公式为:x' = (x-minA)/(maxA-minA)。 输入/输出 输入 没有输入端口 输出 一个输出端口,与抽取、变换节点组合使用 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 图片1.png 示例 使用“鸢尾花数据”,特征选择4个特征
  9. 数据挖掘-最大绝对值归一化

    概述 最大绝对值归一化通过除以每个特征内的最大绝对值将每个特征映射到[-1,1]的范围;它不会移动和中心化数据,因此不会破坏任何的稀疏性。 输入/输出 输入 没有输入端口 输出 一个输出端口,与抽取、变换节点组合使用 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 图片3.png 示例 使用“鸢尾花数据”,特征选择4个特征列,最大绝对值归一化为[-1,1]范围的数据,输出结果如下图: 图片4.png 最大绝对值归一化
  10. 数据挖掘-假设检验

    概述 通过特征变量与目标变量之间的偏差来检验数据之间的相关性或回归分析中的拟合结果。 输入/输出 输入 一个输入端口,用于接收数据集 输出 一个输出端口,用于输出假设检验结果数据集 参数设置 参数名称 说明 备注 选择特征列 用于选择需要检验的字段列 必填 选择标签列 用于选择做为标签列的字段(必须为数值型) 示例 使用“鸢尾花数据”,选择4个特征列和1个标签列,输出结果如下图: 图片6.png 鼠标点击右键查看分析结果: 图片7.png 以上图知:已挑选的特征列的P值都趋近于0