第45页,共287页。 显示 2,865 条结果 (0.029 秒)
数据挖掘-最小最大归一化
端口 输出 一个输出端口,与抽取、变换节点组合使用 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 图片1.png 示例 使用“鸢尾花数据”,特征选择4个特征列,最大最小归一化为[0,1]区间的数,输出结果如下图: 图片2.png 最小最大归一化数据挖掘-最大绝对值归一化
概述 最大绝对值归一化通过除以每个特征内的最大绝对值将每个特征映射到[-1,1]的范围;它不会移动和中心化数据,因此不会破坏任何的稀疏性。 输入/输出 输入 没有输入端口 输出 一个输出端口,与抽取、变换节点组合使用 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 图片3.png 示例 使用“鸢尾花数据”,特征选择4个特征列,最大绝对值归一化为[-1,1]范围的数据,输出结果如下图: 图片4.png 最大绝对值归一化数据挖掘-假设检验
概述 通过特征变量与目标变量之间的偏差来检验数据之间的相关性或回归分析中的拟合结果。 输入/输出 输入 一个输入端口,用于接收数据集 输出 一个输出端口,用于输出假设检验结果数据集 参数设置 参数名称 说明 备注 选择特征列 用于选择需要检验的字段列 必填 选择标签列 用于选择做为标签列的字段(必须为数值型) 示例 使用“鸢尾花数据”,选择4个特征列和1个标签列,输出结果如下图: 图片6.png 鼠标点击右键查看分析结果: 图片7.png 以上图知:已挑选的特征列的P值都趋近于0数据挖掘-特征转换
节点组合使用。 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Index; 该节点与抽取、变换节点组合使用; 图片1.png 示例 使用“鸢尾花数据”,将种类(Species)该列的类别型数据变换为数值型数据。效果如下: 图片2.png 特征转换数据挖掘-词向量
概述 词向量是表示文档的单词序列,通过训练Word2vec模型,将词语转化为向量。该模型将每个单词映射到一个唯一的固定大小向量。Word2Vec模型通过文档中所有单词的平均值将每个文档转换为一个向量;然后可以将该向量用作预测、文档相似性计算的特征。 参数设置 参数名称 说明 生成向量的数量 词向量的维度,默认值为50 词频 默认值为2,词频大于该值的词才能入选词典 示例 图片9.png 效果 使用“垃圾短信识别”示例数据,词向量的参数生成向量数量为50.词频为2,特征选择后,输出结果如下: 图片10.png 词向量数据挖掘-特征转换
节点组合使用。 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Index; 该节点与抽取、变换节点组合使用; 图片1.png 示例 使用“鸢尾花数据”,将种类(Species)该列的类别型数据变换为数值型数据。效果如下: 图片2.png 特征转换数据挖掘-评估
概述 评估节点是对分类算法模型和回归模型的预测效果进行评估,检验模型在分类任务中的表现或者检验其在回归任务中的可靠性。 “评估”节点的前置节点必须是“预测”。 输入/输出 输入 只有一个输入端口,用于接收预测结果。 输出 没有输出端口。 示例 图片42.png 点击右键可以查看评估结果。针对分类与回归及无监督算法提供不同的评估指标。 分类预测模型评价指标如下图: image2020-11-9_11-7-13.png 回归预测模型评价指标如下图: image2020-11-9_11-8-36.png 聚类分析效果如下图: 图片45.png 评估数据挖掘-模型自学习
概述说明 机器学习中发布到生产的服务内所训练的模型随着时间推移,准确性可能会逐步降低。这时若通过补充新的数据,重新进行训练,则有可能提高模型准确性。模型自学习则是将这个步骤自动化,并能自动将符合一定要求的模型发布或者部署到生产中,它能解决模型长期得不到更新而导致准确性降低的问题,并极大减轻运维人员的工作量。 适用场景 1、模型已经训练好并发布为服务,用户希望模型能定期更新 2、模型的训练数据能定期更新 功能入口 图片3.png 进入模型自学习界面可模型自学习自定义并可以设置定时任务,如下: 图片4.png 模型自学习数据挖掘-评分卡输出
概述 评分卡输出用于查看已训练的评分卡模型中,各个变量离散后各分箱的WOE值,iv值及其对评分分数的贡献,可作为对评分卡模型的分析。 输入/输出 输入 一个输入端口,接收训练好的评分卡模型 输出 一个输出端口,用于输出评分卡分析结果 示例 图片3.png 评分卡输出节点的输出结果具体如下: 图片4.png 其中,前三列为各个变量的分箱信息;woe值和IV值反映了该变量分箱的预测偏向和能力;最后两列为该变量分箱对应的转换前和转换后的评分分数,由评分卡模型输出。数据挖掘-最小最大归一化
端口 输出 一个输出端口,与抽取、变换节点组合使用 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 图片1.png 示例 使用“鸢尾花数据”,特征选择4个特征列,最大最小归一化为[0,1]区间的数,输出结果如下图: 图片2.png 最小最大归一化