第135页,共273页。 显示 2,725 条结果 (0.028 秒)
数据挖掘-词袋
概述 词袋是为了对句子进行分词,根据分隔符将句子分割开来,分成一个个独立的词语或者单词。常用于英文文本分割语句。 输入/输出 输入 一个输入端口,用于接收数据集 输出 一个输出端口,用于输出分隔后的结果 参数设置 参数配置 说明 备注 选择文本项 选择需要分割的文本列 必填 分隔符 输入指定的分隔符 必填 示例 使用“垃圾短信识别”数据,选择需要分割的文本列,设置”/”分隔符进行分割,输出结果如下图: image2020-6-4 11_11_16.png 词袋数据挖掘-特征选择
概述 特征选择的作用是从数据集中选取有用特征,用于分类预测或者回归预测算法的训练; 其中:标签列必选,但是只有分类回归预测算法才需要选择标签列,聚类训练时则不需要选择标签列。当与特征节点组合使用时则不需要选择标签列。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择特征列 用于选择做为特征列的字段 必填 选择标签列 用于选择做为标签列的字段 分类、回归算法必填、聚类算法及组合使用不需要选择 示例 特征选择中数据挖掘-特征转换
概述 特征转换是实现特征类型的转换,将类别型变量转换为数值型变量,方便算法训练学习计算。 例如:将特征列中“男”“女”变量转换为0、1的数值。结合特征抽取中抽取和变换节点组合使用。 输入/输出 输入 没有输入端口。 输出 一个输出端口,用于接入下一个节点,与抽取节点组合使用。 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Index; 该节点与抽取、变换节点组合使用; 图片1.png 示例 使用“鸢尾花数据”,将种类(Species)该列的类别型数据变换数据挖掘-停用词处理
概述 停用词处理是由于有些词频很高,但对文章却没有太多意义的语气词和助词等等,比如这、我、你们、吗等等,对这些词进行去掉处理以便能够更好的分析语义。常用于关键词提取分析。 输入/输出 输入 一个输入端口,用于需要过滤停用词的字段。 输出 一个输出端口,用于输出去掉停用词之后的结果。 参数设置 参数名称 说明 备注 字段选择 选择需要去除停用词的列 必填 停用词列表 在对话框填写停用词,每行填写一个停用词 必填 示例 使用“深圳企业信息”示例数据,选择分词后去除停用词的列(企业名称视图选择
视图是指对多维分析定制或浏览中被划分出来的区域元素和报表构成元素。 视图选择功能可以实现用户任意定制多维分析显示的区域元素和构成元素。单击工具栏中的 视图 按钮,弹出视图下拉菜单,多维分析浏览和定制时,允许用户选择的视图有区别: 浏览界面:显示表头、显示表尾、显示参数面板、显示表格、显示图形。 2022-02-10_14-08-19.png 定制界面:显示表头、显示表尾、显示参数面板、显示表格、显示图形、显示资源区、显示查询面板、显示属性区。多维探索定制界面和多维分析定制界面稍有不同,如下图: 2022-02-10_14-12-30.png2022-02-10_14-13-49.png资源排序
用户选择父节点,可以针对父节点下的子节点进行排序设置,比如对目录下的资源进行排序,对参数节点下的目录和参数进行排序,对数据集下面的字段进行排序等等。 目前产品支持报表和目录混排。 操作入口 选中父节点,右键选择 排序 按钮,弹出排序对话框。 136.png 操作步骤 (1)在排序窗口中,每个资源前会有一个序号表示该资源的位置 137.png (2)右侧按钮有:上移至顶、上移、下移至底、下移。可选中资源之后,点击相应按钮移动资源 138.png (3)也可以直接在右侧输入框中输入序号,点击下方的按钮,直接将资源移动到对应的位置 139.png 效果如下: 140.png数据挖掘-特征选择
概述 特征选择的作用是从数据集中选取有用特征,用于分类预测或者回归预测算法的训练; 其中:标签列必选,但是只有分类回归预测算法才需要选择标签列,聚类训练时则不需要选择标签列。当与特征节点组合使用时则不需要选择标签列。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择特征列 用于选择做为特征列的字段 必填 选择标签列 用于选择做为标签列的字段 分类、回归算法必填、聚类算法及组合使用不需要选择 示例 特征选择中数据挖掘-特征转换
概述 特征转换是实现特征类型的转换,将类别型变量转换为数值型变量,方便算法训练学习计算。 例如:将特征列中“男”“女”变量转换为0、1的数值。结合特征抽取中抽取和变换节点组合使用。 输入/输出 输入 没有输入端口。 输出 一个输出端口,用于接入下一个节点,与抽取节点组合使用。 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Index; 该节点与抽取、变换节点组合使用; 图片1.png 示例 使用“鸢尾花数据”,将种类(Species)该列的类别型数据变换属性区
用于设置数据集相关资源的属性。它主要包含两个部分:数据集输出区和属性面板。 image2019-10-29 15:54:7.png 数据集输出区:该区显示所有可视化数据集级别的相关资源,如:输出字段、计算字段、私有参数、输出参数、告警设置、多查询,并通过相应的右键菜单对这些资源进行管理。该区通常与“属性面板”结合起来用于对这些资源的属性进行管理。 @self 属性面板:该区需要与“工作区”结合使用,单击工作区中的任一资源,即在属性面板中列出该资源的相关属性信息。用户可以在属性面板中重新设置资源的相关属性。数据挖掘-最小最大归一化
概述 最小最大值归一化是对原始数据的线性变换,使结果映射到[0,1]区间。设minA和maxA分别为特征A的最小值和最大值,将A的一个原始值x通过MinMaxScaler映射到区间[0,1]间,公式为:x' = (x-minA)/(maxA-minA)。 输入/输出 输入 没有输入端口 输出 一个输出端口,与抽取、变换节点组合使用 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 图片1.png 示例 使用“鸢尾花数据”,特征选择4个特征