第47页,共108页。 显示 1,077 条结果 (0.026 秒)
数据挖掘-最小最大归一化
概述 最小最大值归一化是对原始数据的线性变换,使结果映射到[0,1]区间。设minA和maxA分别为特征A的最小值和最大值,将A的一个原始值x通过MinMaxScaler映射到区间[0,1]间,公式为:x' = (x-minA)/(maxA-minA)。 输入/输出 输入 没有输入端口 输出 一个输出端口,与抽取、变换节点组合使用 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 图片1.png 示例 使用“鸢尾花数据”,特征选择4个特征数据挖掘-最大绝对值归一化
概述 最大绝对值归一化通过除以每个特征内的最大绝对值将每个特征映射到[-1,1]的范围;它不会移动和中心化数据,因此不会破坏任何的稀疏性。 输入/输出 输入 没有输入端口 输出 一个输出端口,与抽取、变换节点组合使用 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 图片3.png 示例 使用“鸢尾花数据”,特征选择4个特征列,最大绝对值归一化为[-1,1]范围的数据,输出结果如下图: 图片4.png 最大绝对值归一化数据挖掘-假设检验
概述 通过特征变量与目标变量之间的偏差来检验数据之间的相关性或回归分析中的拟合结果。 输入/输出 输入 一个输入端口,用于接收数据集 输出 一个输出端口,用于输出假设检验结果数据集 参数设置 参数名称 说明 备注 选择特征列 用于选择需要检验的字段列 必填 选择标签列 用于选择做为标签列的字段(必须为数值型) 示例 使用“鸢尾花数据”,选择4个特征列和1个标签列,输出结果如下图: 图片6.png 鼠标点击右键查看分析结果: 图片7.png 以上图知:已挑选的特征列的P值都趋近于0数据挖掘-词袋
概述 词袋是为了对句子进行分词,根据分隔符将句子分割开来,分成一个个独立的词语或者单词。常用于英文文本分割语句。 输入/输出 输入 一个输入端口,用于接收数据集 输出 一个输出端口,用于输出分隔后的结果 参数设置 参数配置 说明 备注 选择文本项 选择需要分割的文本列 必填 分隔符 输入指定的分隔符 必填 示例 使用“垃圾短信识别”数据,选择需要分割的文本列,设置”/”分隔符进行分割,输出结果如下图: image2020-6-4 11_11_16.png 词袋数据挖掘-特征选择
概述 特征选择的作用是从数据集中选取有用特征,用于分类预测或者回归预测算法的训练; 其中:标签列必选,但是只有分类回归预测算法才需要选择标签列,聚类训练时则不需要选择标签列。当与特征节点组合使用时则不需要选择标签列。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择特征列 用于选择做为特征列的字段 必填 选择标签列 用于选择做为标签列的字段 分类、回归算法必填、聚类算法及组合使用不需要选择 示例 特征选择中数据挖掘-特征转换
概述 特征转换是实现特征类型的转换,将类别型变量转换为数值型变量,方便算法训练学习计算。 例如:将特征列中“男”“女”变量转换为0、1的数值。结合特征抽取中抽取和变换节点组合使用。 输入/输出 输入 没有输入端口。 输出 一个输出端口,用于接入下一个节点,与抽取节点组合使用。 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Index; 该节点与抽取、变换节点组合使用; 图片1.png 示例 使用“鸢尾花数据”,将种类(Species)该列的类别型数据变换数据挖掘-停用词处理
概述 停用词处理是由于有些词频很高,但对文章却没有太多意义的语气词和助词等等,比如这、我、你们、吗等等,对这些词进行去掉处理以便能够更好的分析语义。常用于关键词提取分析。 输入/输出 输入 一个输入端口,用于需要过滤停用词的字段。 输出 一个输出端口,用于输出去掉停用词之后的结果。 参数设置 参数名称 说明 备注 字段选择 选择需要去除停用词的列 必填 停用词列表 在对话框填写停用词,每行填写一个停用词 必填 示例 使用“深圳企业信息”示例数据,选择分词后去除停用词的列(企业名称数据挖掘-日期计算
概述 在日期的计算中,经常要对日期计算日期差或对日期进行加减指定天数等操作。 image2023-2-3_11-42-53.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出日期计算处理后的结果。 参数设置 设置日期时间处理的参数: image2023-2-3_11-45-7.png 设置说明如下: 参数 说明 选择列 要进行日期计算处理的列。 计算方式 作和:日期列与整数、日期与整数列作和 作差:日期列与日期列、日期列与整数列作差 指定列(值) 指定列或者指定值 粒度数据挖掘-字符串处理
概述 在处理文本过程中,经常需要从字符数据中提取数字。 image2023-2-17_17-22-55.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出字符串处理后的结果。 参数设置 设置字符串处理的参数: image2023-2-17_17-25-25.png 设置说明如下: 参数 说明 选择列 要进行字符串处理的列。 新增列名称 字符串处理后输出列的名称。 处理方式 提取数字 提取整数 提取浮点数 数字片段位数 提取的位置,选择的列中数据挖掘-字符串处理
概述 在处理文本过程中,经常需要从字符数据中提取数字。 image2023-2-17_17-22-55.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出字符串处理后的结果。 参数设置 设置字符串处理的参数: image2023-2-17_17-25-25.png 设置说明如下: 参数 说明 选择列 要进行字符串处理的列。 新增列名称 字符串处理后输出列的名称。 处理方式 提取数字 提取整数 提取浮点数 数字片段位数 提取的位置,选择的列中