第57页,共108页。 显示 1,077 条结果 (0.024 秒)
数据挖掘-值替换
概述 在数据预处理中,值替换用于对字段中指定的值进行替换。 image2021-3-18_15-58-26.png 10.5.15版本后,左侧资源树不再显示值替换节点,但是旧的值替换节点仍能正常使用,建议使用最新的数据清洗节点完成替换操作。 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出值替换后的结果。 参数设置 值替换配置: image2021-3-22_10-25-7.png 值替换配置界面如下: image2021-3-22_10-32-47.png 设置项说明如下: 参数 说明 已选字段 选择进行值替换的字段数据挖掘 – LSH
度匹配。 输入/输出 输入 没有输入端口。 输出 一个输出端口,与抽取、变换节点组合使用。 参数设置 参数名称 说明 备注 相似度计算方法 相似度距离度量 欧式距离和杰卡德距离 哈希存储桶的长度 每个哈希表内的哈希桶数据挖掘 - CBLOF
概述 CBLOF(Cluster-Based Local Outlier Factor,基于聚类的本地异常因子)是一个异常检测节点,原理是先用聚类算法把为数据分为K个簇,而后通过设定占比阈值和突降倍数阈值,把簇区分为大簇和小簇,聚类完成后,计算每个点到最邻近大簇的距离(邻近距离),邻近距离越大的数据点为异常数据的概率越大。 CBLOF算法适用于当没有已知正常的数据时,对所有输入的新数据进行异常值的辨别。 输入/输出 输入 一个输入端口,接收要异常检测的数据 输出 一个输出端口,用于输出检测后的结果 参数设置 参数名称 说明 备注 选择特征列数据挖掘-数据清洗V2
概述 新版本的数据清洗合并了旧版本中的空值处理、值替换、数据清理节点。通过该节点,可以实现以下几点功能: (1)空值替换为均值、最大频数或者用户自定义的值等,实现空值的填充或者过滤; (2)移除字符串中空格、标点符号、字母、数字等不必要的字符,或设置大小写方式。 image2023-2-3_14-52-13.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出数据清洗的结果。 参数设置 设置异常值处理的参数: image2023-2-3_14-52-53.png 设置说明如下: 参数 说明 选择字段数据挖掘-WOE编码
概述 WOE编码是评分卡模型常用的数据处理步骤,用于对所选特征值进行WOE编码,并计算IV值,且可根据IV值做特征选择。 输入/输出 输入 一个输入端口,用于接收需要进行WOE编码的数据集。 输出 两个输出端口,输出1是用于输出WOE编码转换后的数据集,输出2是WOE编码模型。 参数设置 参数名称 说明 备注 选择列 用于选择进行异常值处理设置的字段。 31.png 必填(特征列中不能含有null) 分箱方式 分位数分箱:根据设置的数值算出对应的分位数,按照算出的分位数对字段进行分箱。 自定义数据挖掘-数据清洗V2
概述 新版本的数据清洗合并了旧版本中的空值处理、值替换、数据清理节点。通过该节点,可以实现以下几点功能: (1)空值替换为均值、最大频数或者用户自定义的值等,实现空值的填充或者过滤; (2)移除字符串中空格、标点符号、字母、数字等不必要的字符,或设置大小写方式。 image2023-2-3_14-52-13.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出数据清洗的结果。 参数设置 设置异常值处理的参数: image2023-2-3_14-52-53.png 设置说明如下: 参数 说明 选择字段数据挖掘 - CBLOF
概述 CBLOF(Cluster-Based Local Outlier Factor,基于聚类的本地异常因子)是一个异常检测节点,原理是先用聚类算法把为数据分为K个簇,而后通过设定占比阈值和突降倍数阈值,把簇区分为大簇和小簇,聚类完成后,计算每个点到最邻近大簇的距离(邻近距离),邻近距离越大的数据点为异常数据的概率越大。 CBLOF算法适用于当没有已知正常的数据时,对所有输入的新数据进行异常值的辨别。 输入/输出 输入 一个输入端口,接收要异常检测的数据 输出 一个输出端口,用于输出检测后的结果 参数设置 参数名称 说明 备注 选择特征列数据挖掘-高维数据可视化
概述 将数据用图形展示(散点图/平行坐标图),实现对数据或结果可视化分析。 散点图常用在因变量随自变量而变化的趋势,进而找到变量之间的函数关系。 平行坐标图常用在反映变化趋势和各个变量间相互关系,它具有良好的数学基础,其射影几何解释和对偶特性使它很适合用于可视化数据分析。 输入/输出 输入 一个输入端口,用于接收数据集。 输出 没有输出端口,允许可视化查看分析结果。 参数设置 参数名称 说明 备注 选择列 用于选择需要绘制图形的字段列 必填 采样比例 用于对输入数据按比例进行抽样,抽样结果用于绘图数据挖掘-PSI评估
概述 对离散特征稳定性进行评估,在支持评分卡模型应用后,PSI评估可以对模型效果进行评估。 image2020-9-1_16-27-13.png 输入/输出 输入 两个输入端口,一个为在模型训练预测过程中的评分卡模型预测结果,一个为利用评分卡模型在实际生产中产生的评分卡数据集;两个数据集均需通过离散化处理。 输出 没有输出端口。 参数说明 设置PSI评估的参数: image2020-9-1_16-45-45.png 设置说明如下: 参数名称 说明 备注 选择特征列 用于选择特征列的变量,结果显示每个特征或分数基于mysql数据源创建的资源无法筛选出中文数据
链接: 错误的url链接导致where=中文查询错误: jdbc:mysql://ip:端口/数据库名称?useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertToNull&allowMultiQueries=true&useSSL=false 修改后正常的url链接: jdbc:mysql://ip:端口/数据库名称?useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertToNull&allowMultiQueries=true&useSSL