搜索

Help

第44页,共90页。 显示 897 条结果 (0.027 秒)

  1. 数据挖掘-停用词处理

    概述 停用词处理是由于有些词频很高,但对文章却没有太多意义的语气词和助词等等,比如这、我、你们、吗等等,对这些词进行去掉处理以便能够更好的分析语义。常用于关键词提取分析。 输入/输出 输入 一个输入端口,用于需要过滤停用词的字段。 输出 一个输出端口,用于输出去掉停用词之后的结果。 参数设置 参数名称 说明 备注 字段选择 选择需要去除停用词的列 必填 停用词列表 在对话框填写停用词,每行填写一个停用词 必填 示例 使用“深圳企业信息”示例数据,选择分词后去除停用词的列(企业名称
  2. 数据挖掘-日期计算

    概述 在日期的计算中,经常要对日期计算日期差或对日期进行加减指定天数等操作。 image2023-2-3_11-42-53.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出日期计算处理后的结果。 参数设置 设置日期时间处理的参数:  image2023-2-3_11-45-7.png 设置说明如下: 参数 说明 选择列 要进行日期计算处理的列。 计算方式 作和:日期列与整数、日期与整数列作和 作差:日期列与日期列、日期列与整数列作差 指定列(值) 指定列或者指定值 粒度
  3. 数据挖掘-字符串处理

    概述 在处理文本过程中,经常需要从字符数据中提取数字。 image2023-2-17_17-22-55.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出字符串处理后的结果。 参数设置 设置字符串处理的参数:  image2023-2-17_17-25-25.png 设置说明如下: 参数 说明 选择列 要进行字符串处理的列。 新增列名称 字符串处理后输出列的名称。 处理方式 提取数字 提取整数 提取浮点数 数字片段位数 提取的位置,选择的列中
  4. 数据挖掘-字符串处理

    概述 在处理文本过程中,经常需要从字符数据中提取数字。 image2023-2-17_17-22-55.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出字符串处理后的结果。 参数设置 设置字符串处理的参数:  image2023-2-17_17-25-25.png 设置说明如下: 参数 说明 选择列 要进行字符串处理的列。 新增列名称 字符串处理后输出列的名称。 处理方式 提取数字 提取整数 提取浮点数 数字片段位数 提取的位置,选择的列中
  5. 数据挖掘-特征选择

    概述 特征选择的作用是从数据集中选取有用特征,用于分类预测或者回归预测算法的训练; 其中:标签列必选,但是只有分类回归预测算法才需要选择标签列,聚类训练时则不需要选择标签列。当与特征节点组合使用时则不需要选择标签列。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择特征列 用于选择做为特征列的字段 必填 选择标签列 用于选择做为标签列的字段 分类、回归算法必填、聚类算法及组合使用不需要选择 示例 特征选择中
  6. 数据挖掘-特征转换

    概述 特征转换是实现特征类型的转换,将类别型变量转换为数值型变量,方便算法训练学习计算。 例如:将特征列中“男”“女”变量转换为0、1的数值。结合特征抽取中抽取和变换节点组合使用。 输入/输出 输入 没有输入端口。 输出 一个输出端口,用于接入下一个节点,与抽取节点组合使用。 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Index; 该节点与抽取、变换节点组合使用; 图片1.png 示例 使用“鸢尾花数据”,将种类(Species)该列的类别型数据变换
  7. 数据挖掘-正则化

    概述 用于标准化输入数据,使每个向量具有单位范数;Normalizer需要输入参数p,指定标准化范数,默认值为2;该标准化方法可用于提升算法效果。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择列 用于选择需要正则化的列。 必填,列数<=10 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 P范数 指定标注化范数。 必填
  8. 数据挖掘-预测

    概述 预测节点是根据训练集以及各种分类或回归算法对测试集进行结果预测。  输入/输出 输入 两个输入端口,左边输入为已训练的模型或者已保存的模型,右边输入为测试集。 输出 一个输出端口,输出测试集的预测结果。 示例 以逻辑回归为例,如下图:  图片41.png 点击预测节点右键可查看预测结果输出。 输出字段 输出字段 概念及其作用 features 特征向量,是由特征列组成的特征向量。 featuresNormalized 归一化后的特征向量,将特征向量进行归一化转换。 rawPrediction 直接概率,即每个可能标签置信度的度量
  9. 数据挖掘-评估

    概述 评估节点是对分类算法模型和回归模型的预测效果进行评估,检验模型在分类任务中的表现或者检验其在回归任务中的可靠性。 “评估”节点的前置节点必须是“预测”。 输入/输出 输入 只有一个输入端口,用于接收预测结果。 输出 没有输出端口。 示例  图片42.png 点击右键可以查看评估结果。针对分类与回归及无监督算法提供不同的评估指标。 分类预测模型评价指标如下图: image2020-11-9_11-7-13.png 回归预测模型评价指标如下图: image2020-11-9_11-8-36.png 聚类分析效果如下图: 图片45.png 评估
    Smartbi Insight V10帮助中心十一月 09, 2020
  10. 数据挖掘-评分卡输出

    概述 评分卡输出用于查看已训练的评分卡模型中,各个变量离散后各分箱的WOE值,iv值及其对评分分数的贡献,可作为对评分卡模型的分析。 输入/输出 输入 一个输入端口,接收训练好的评分卡模型 输出 一个输出端口,用于输出评分卡分析结果 示例 图片3.png 评分卡输出节点的输出结果具体如下: 图片4.png 其中,前三列为各个变量的分箱信息;woe值和IV值反映了该变量分箱的预测偏向和能力;最后两列为该变量分箱对应的转换前和转换后的评分分数,由评分卡模型输出。