第221页,共365页。 显示 3,642 条结果 (0.047 秒)
数据挖掘-相关性分析
概述 相关性分析是用来反映变量之间的相关关系的密切程度。相关系数的取值一般介于-1和1之间。当相关系数为正的时候,意味着变量之间是正相关的;当相关系数为负的时候,意味着变量之间是负相关。 相关性分析常用在数据探索阶段,当我们并不了解原始数据各字段之间的关系时,通过相关性分析,可以看到各个字段之间的相关性,其后进行的数据分析工作可以围绕这些相关性展开。 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出相关系数的数据集。 参数设置 参数名称 说明 备注 选择列 用于选择进行相关性分析的字段列 必填数据挖掘-全表统计
概述 全表统计是对观测数据进行不同的统计分析,可统计信息:最小值、最大值、平均值、标准差、方差、总和、行数、唯一值、缺失值、偏度、峰度、中位数、下四分位、上四分位、众数等指标;还可使用箱线图和直方图尽可能简单全面表达数据所蕴含的数值范围、分布等信息。 输入/输出 输入 一个输入端口,用于接收数据集 输出 没有输出端口 参数设置 参数名称 说明 备注 选择列 选择需要统计的特征列(列数<=10) 必填 可选统计 选择需要的指标进行统计分析。可选的指标:偏度、峰度、总和、众数、方差、标准差、缺失值。 使用全表统计节点默认统计的指标数据挖掘-RFM
概述 通过对选择的特征列按照阈值进行二分(可按均值、指定值、中值),将客户数据划分为不同的客群。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择特征列 可选列:选择需要进行划分的字段,仅可选数值型字段; 划分方法:可按均值、中值和指定值进行二分; 指定值:当划分方法选择指定值时,用于设置划分的阈值; 必填 示例 使用“航空公司客户价值分析”数据,划分结果生成两个标签列BinaryClass和RFMClass数据挖掘-卡方特征选择
概述 卡方特征选择与特征选择的功能类似,都是用于筛选特征到算法节点。卡方特征选择是根据卡方检验的数据相关性对特征变量进行排序,然后选择与目标变量相关性较大的特征变量。不同之处是卡方特征选择只设置需要选择的特征数量,然后该节点会根据目标字段列自动选择最相关的特征。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择特征列 用于设置待选择的特征列(人工选择可能相关的特征列) 必填(特征列中不能含有null) 选择标签列 用于设置数据挖掘-PCA(主成分分析)
概述 PCA(主成分分析)是统计学上一种常用的方法,主要用来对高维数据进行降维,通过对多个维度进行线性组合,获得较少且能够描述数据特征的主成分指标,减少由于数据维度过多带来的庞大计算量,降低算法的复杂度,使用最少数量的主成分来解释最大量的方差。因为它可减少变量数目以此避免多重共线性,适用于预测变量较多大于观测值数目的情况。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择特征列 用于设置待选择的特征列 必填(特征列中不能含有数据挖掘-特征离散
概述 特征离散的作用是将连续的数据进行等距离散化,就是把连续特征分段,每一段内的原始连续特征无差别的堪称同一个新特征,用户可以根据数据的特征自定义离散区间。 输入/输出 输入 没有输入端口 输出 一个输出端口,用于接入下一个节点,与抽取节点组合使用。 参数设置 参数名称 说明 备注 离散区间数 选择需要进行离散化的特征列,必须是数值列 必填范围是>=2的整数,默认为10 新增列后缀 离散后会生成新的字段,默认在原有字段名后追加Buckrizer后缀。该后缀支持修改。后缀默认值为Buckerizer数据挖掘-自定义离散
概述 将连续的属性进行离散化操作,方便数据挖掘处理。用户可自定义规则进行离散化操作。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出增加了离散后的字段的数据集。 参数设置 参数名称 说明 备注 自定义规则 区间:以英文逗号分隔离散区间,负无穷为-INF,正无穷为INF。 区间为空时,默认该字段不做离散处理。 必填。 区间填写示例:-INF,30,60, 90,INF 新增列后缀 离散后会生成新的字段,默认在原有字段名后追加Buckrizer后缀。该后缀支持修改数据挖掘-LDA
概述 LDA是一种主题模型。它是一个三层贝叶斯概率模型,包含词、主题和文档三层结构。 它是一种非监督机器学习技术,可以识别出大规模文档集或语料库中的主题。 常用于做文本挖掘聚类分析。 参数设置 参数名称 说明 主题数目 主题数,或者聚类中心数。默认值为2。 迭代次数 模型的迭代次数,达到该迭代次数即退出。默认值为10 文档主题分布 文章分布的超参数(Dirichlet分布的参数),必需>=0,默认值为1。 值越大,推断出的分布越平滑 主题词分布 主题分布的超参数(Dirichlet分布的参数),必需>=0,默认值为1显示部分图例
产品名称的数组 //从所有图例中截取部分作为新图例,0,9表示从第1个图例开始,截取到第9个 option.legend.data = data.slice(0,9); } 示例资源:显示部分图例.xml 设置部分图例 getoptions截图部分使用DB2数据库作为知识库
Smartbi 使用 DB2 做知识库的时候,数据库的表空间页大小必须是32k。创建库有下面两种方法,说明如下: 方法一: 使用 DB2 的控制中心,创建知识库。 1、右键“数据库”打开右键菜单,选择 创建数据库 > 标准。 worddav1947d4303d05b6d2290d6cd167e578b8.png 2、输入数据库名称,并设置“缺省缓冲池和表空间页大小”为“32k”。 worddavf6dadca3aafd6729f75cc44aa3309395.png 3、点击完成,完成知识库的创建。 方法二: 使用命令行创建知识库。 1、在dos窗口中输入db2cmd,登录到db2的命令行环境