第53.6页,共90页。 显示 897 条结果 (0.186 秒)
数据挖掘-OneHot编码
概述 OneHot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。它是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,其它都是零值,它被标记为1。(即:标记位置为1,其他位置为0)我们编码后的结果是一个稀疏向量,稀疏向量就是有特征数量,特征索引和特征值组成。 image2020-9-11_16-15-16.png 输入/输出 输入 没有输入端口。 输出 一个输出端口,用于接入下一个节点,与抽取节点组合使用。 参数设置 参数名称 说明 备注 新增列后缀数据挖掘-WOE编码
概述 WOE编码是评分卡模型常用的数据处理步骤,用于对所选特征值进行WOE编码,并计算IV值,且可根据IV值做特征选择。 输入/输出 输入 一个输入端口,用于接收需要进行WOE编码的数据集。 输出 两个输出端口,输出1是用于输出WOE编码转换后的数据集,输出2是WOE编码模型。 参数设置 参数名称 说明 备注 选择列 用于选择进行异常值处理设置的字段。 31.png 必填(特征列中不能含有null) 分箱方式 分位数分箱:根据设置的数值算出对应的分位数,按照算出的分位数对字段进行分箱。 自定义数据挖掘-PSI评估
概述 对离散特征稳定性进行评估,在支持评分卡模型应用后,PSI评估可以对模型效果进行评估。 image2020-9-1_16-27-13.png 输入/输出 输入 两个输入端口,一个为在模型训练预测过程中的评分卡模型预测结果,一个为利用评分卡模型在实际生产中产生的评分卡数据集;两个数据集均需通过离散化处理。 输出 没有输出端口。 参数说明 设置PSI评估的参数: image2020-9-1_16-45-45.png 设置说明如下: 参数名称 说明 备注 选择特征列 用于选择特征列的变量,结果显示每个特征或分数数据挖掘-值替换
概述 在数据预处理中,值替换用于对字段中指定的值进行替换。 image2021-3-18_15-58-26.png 10.5.15版本后,左侧资源树不再显示值替换节点,但是旧的值替换节点仍能正常使用,建议使用最新的数据清洗节点完成替换操作。 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出值替换后的结果。 参数设置 值替换配置: image2021-3-22_10-25-7.png 值替换配置界面如下: image2021-3-22_10-32-47.png 设置项说明如下: 参数 说明 已选字段 选择进行值替换的字段数据挖掘 – LSH
度匹配。 输入/输出 输入 没有输入端口。 输出 一个输出端口,与抽取、变换节点组合使用。 参数设置 参数名称 说明 备注 相似度计算方法 相似度距离度量 欧式距离和杰卡德距离 哈希存储桶的长度 每个哈希表内的哈希桶数据挖掘 - CBLOF
概述 CBLOF(Cluster-Based Local Outlier Factor,基于聚类的本地异常因子)是一个异常检测节点,原理是先用聚类算法把为数据分为K个簇,而后通过设定占比阈值和突降倍数阈值,把簇区分为大簇和小簇,聚类完成后,计算每个点到最邻近大簇的距离(邻近距离),邻近距离越大的数据点为异常数据的概率越大。 CBLOF算法适用于当没有已知正常的数据时,对所有输入的新数据进行异常值的辨别。 输入/输出 输入 一个输入端口,接收要异常检测的数据 输出 一个输出端口,用于输出检测后的结果 参数设置 参数名称 说明 备注 选择特征列数据挖掘-数据清洗V2
概述 新版本的数据清洗合并了旧版本中的空值处理、值替换、数据清理节点。通过该节点,可以实现以下几点功能: (1)空值替换为均值、最大频数或者用户自定义的值等,实现空值的填充或者过滤; (2)移除字符串中空格、标点符号、字母、数字等不必要的字符,或设置大小写方式。 image2023-2-3_14-52-13.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出数据清洗的结果。 参数设置 设置异常值处理的参数: image2023-2-3_14-52-53.png 设置说明如下: 参数 说明 选择字段数据挖掘-OneHot编码
概述 OneHot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。它是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,其它都是零值,它被标记为1。(即:标记位置为1,其他位置为0)我们编码后的结果是一个稀疏向量,稀疏向量就是有特征数量,特征索引和特征值组成。 image2020-9-11_16-15-16.png 输入/输出 输入 没有输入端口。 输出 一个输出端口,用于接入下一个节点,与抽取节点组合使用。 参数设置 参数名称 说明 备注 新增列后缀数据挖掘-WOE编码
概述 WOE编码是评分卡模型常用的数据处理步骤,用于对所选特征值进行WOE编码,并计算IV值,且可根据IV值做特征选择。 输入/输出 输入 一个输入端口,用于接收需要进行WOE编码的数据集。 输出 两个输出端口,输出1是用于输出WOE编码转换后的数据集,输出2是WOE编码模型。 参数设置 参数名称 说明 备注 选择列 用于选择进行异常值处理设置的字段。 31.png 必填(特征列中不能含有null) 分箱方式 分位数分箱:根据设置的数值算出对应的分位数,按照算出的分位数对字段进行分箱。 自定义数据挖掘-数据清洗V2
概述 新版本的数据清洗合并了旧版本中的空值处理、值替换、数据清理节点。通过该节点,可以实现以下几点功能: (1)空值替换为均值、最大频数或者用户自定义的值等,实现空值的填充或者过滤; (2)移除字符串中空格、标点符号、字母、数字等不必要的字符,或设置大小写方式。 image2023-2-3_14-52-13.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出数据清洗的结果。 参数设置 设置异常值处理的参数: image2023-2-3_14-52-53.png 设置说明如下: 参数 说明 选择字段