搜索

Help

第53页,共90页。 显示 897 条结果 (0.028 秒)

  1. 数据挖掘 – LSH

    度匹配。 输入/输出 输入 没有输入端口。 输出 一个输出端口,与抽取、变换节点组合使用。 参数设置 参数名称 说明 备注 相似度计算方法 相似度距离度量 欧式距离和杰卡德距离 哈希存储桶的长度 每个哈希表内的哈希桶
  2. 数据挖掘-行选择

    概述 行选择是根据不同的筛选或者删除条件,选择不同数量的行。 image2020-5-22 14:44:3.png 10.5.15版本后,左侧资源树不再显示行选择节点,但是旧的行选择节点仍能正常使用,建议使用最新的行过滤节点完成行选择操作。 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出行选择的结果。 参数设置 设置行选择的参数: image2020-5-22 14:49:39.png 设置说明如下: 参数 说明 过滤与筛选 1、支持三种方式进行筛选: 根据行号筛选:输入
  3. 数据挖掘-高维数据可视化

    概述 将数据用图形展示(散点图/平行坐标图),实现对数据或结果可视化分析。 散点图常用在因变量随自变量而变化的趋势,进而找到变量之间的函数关系。 平行坐标图常用在反映变化趋势和各个变量间相互关系,它具有良好的数学基础,其射影几何解释和对偶特性使它很适合用于可视化数据分析。 输入/输出 输入 一个输入端口,用于接收数据集。 输出 没有输出端口,允许可视化查看分析结果。 参数设置 参数名称 说明 备注 选择列 用于选择需要绘制图形的字段列 必填 采样比例 用于对输入数据按比例进行抽样,抽样结果用于绘图
  4. 数据挖掘-分词

    概述 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。它是对句子进行精确分词,在词库中进行搜索匹配,将句子根据匹配的结果分成那些常见的词组或者单词。常用于做文本挖掘分析。 输入/输出 输入 一个输入端口,用于接收数据集 输出 一个输出端口,用于输出分词后的结果。 参数设置 参数名称 说明 备注 字段选择 选择需要分词的字段列(必须是文本型字段) 必填 自定义词典 说明:按行填写词列表,每行一词,最多支持一万词。 支持两种方式输入自定义词: 手动输入,每行填写一个自定义词
  5. 数据挖掘-OneHot编码

    概述 OneHot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。它是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,其它都是零值,它被标记为1。(即:标记位置为1,其他位置为0)我们编码后的结果是一个稀疏向量,稀疏向量就是有特征数量,特征索引和特征值组成。 image2020-9-11_16-15-16.png 输入/输出 输入 没有输入端口。 输出 一个输出端口,用于接入下一个节点,与抽取节点组合使用。 参数设置 参数名称 说明 备注 新增列后缀
  6. 数据挖掘-WOE编码

    概述 WOE编码是评分卡模型常用的数据处理步骤,用于对所选特征值进行WOE编码,并计算IV值,且可根据IV值做特征选择。 输入/输出 输入 一个输入端口,用于接收需要进行WOE编码的数据集。 输出 两个输出端口,输出1是用于输出WOE编码转换后的数据集,输出2是WOE编码模型。 参数设置 参数名称 说明 备注 选择列 用于选择进行异常值处理设置的字段。 31.png 必填(特征列中不能含有null) 分箱方式 分位数分箱:根据设置的数值算出对应的分位数,按照算出的分位数对字段进行分箱。 自定义
  7. 数据挖掘-PSI评估

    概述 对离散特征稳定性进行评估,在支持评分卡模型应用后,PSI评估可以对模型效果进行评估。 image2020-9-1_16-27-13.png 输入/输出 输入 两个输入端口,一个为在模型训练预测过程中的评分卡模型预测结果,一个为利用评分卡模型在实际生产中产生的评分卡数据集;两个数据集均需通过离散化处理。 输出 没有输出端口。 参数说明 设置PSI评估的参数: image2020-9-1_16-45-45.png 设置说明如下: 参数名称 说明 备注 选择特征列 用于选择特征列的变量,结果显示每个特征或分数
  8. 数据挖掘-值替换

    概述 在数据预处理中,值替换用于对字段中指定的值进行替换。 image2021-3-18_15-58-26.png 10.5.15版本后,左侧资源树不再显示值替换节点,但是旧的值替换节点仍能正常使用,建议使用最新的数据清洗节点完成替换操作。 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出值替换后的结果。 参数设置 值替换配置: image2021-3-22_10-25-7.png 值替换配置界面如下: image2021-3-22_10-32-47.png 设置项说明如下: 参数 说明 已选字段 选择进行值替换的字段
  9. 数据挖掘 – LSH

    度匹配。 输入/输出 输入 没有输入端口。 输出 一个输出端口,与抽取、变换节点组合使用。 参数设置 参数名称 说明 备注 相似度计算方法 相似度距离度量 欧式距离和杰卡德距离 哈希存储桶的长度 每个哈希表内的哈希桶
  10. 数据挖掘 - CBLOF

    概述 CBLOF(Cluster-Based Local Outlier Factor,基于聚类的本地异常因子)是一个异常检测节点,原理是先用聚类算法把为数据分为K个簇,而后通过设定占比阈值和突降倍数阈值,把簇区分为大簇和小簇,聚类完成后,计算每个点到最邻近大簇的距离(邻近距离),邻近距离越大的数据点为异常数据的概率越大。 CBLOF算法适用于当没有已知正常的数据时,对所有输入的新数据进行异常值的辨别。 输入/输出 输入 一个输入端口,接收要异常检测的数据 输出 一个输出端口,用于输出检测后的结果 参数设置 参数名称 说明 备注 选择特征列