第60页,共308页。 显示 3,072 条结果 (0.042 秒)
数据挖掘-随机森林
概述 随机森林指的是利用多棵树构成森林对样本进行训练并预测的一种分类器。但是每棵决策树之间没有关联,每棵树都是基于随机抽取的样本和特征进行独立训练。 随机森林算法广泛应用于分类问题。其是决策树的组合,将许多决策树联合到一起,以降低过拟合的风险。随机森林支持连续数据或离散数据进行二分类或多分类。 优势:可反映出特征重要性。 示例 使用“垃圾短信识别”案例数据,预测是否为垃圾短信。 image2020-6-5 16:22:21.png 其中,分词是为了将短信文本进行分成词语方便分析;停用词处理是为了去除不必要的词语、标点符号、语气词等;TF-IDF是为了计算文本数据的idf值,方便进入模型训练数据挖掘-随机森林
概述 随机森林指的是利用多棵树构成森林对样本进行训练并预测的一种分类器。但是每棵决策树之间没有关联,每棵树都是基于随机抽取的样本和特征进行独立训练。 随机森林算法广泛应用于分类问题。其是决策树的组合,将许多决策树联合到一起,以降低过拟合的风险。随机森林支持连续数据或离散数据进行二分类或多分类。 优势:可反映出特征重要性。 示例 使用“垃圾短信识别”案例数据,预测是否为垃圾短信。 image2020-6-5 16:22:21.png 其中,分词是为了将短信文本进行分成词语方便分析;停用词处理是为了去除不必要的词语、标点符号、语气词等;TF-IDF是为了计算文本数据的idf值,方便进入模型训练自定义计划任务
),基本都是按新的需求重新组合,如果涉及到报表可能就需要了解。 3、最重要实际还是需要结合示例,充分理解自定义任务脚本。 5.系统内置对象说明 系统内置对象说明: 对象 对象描述 connector 系统内置的连接对象,连接到计划任务服务器,可直接使用。例如 … 组件说明 6.1说明 Smartbi服务器端SDK通过JAVA API提供七项服务接口,可以在自定义任务中调用这些API。 服务对象 描述 AnalysisReportService 提供多维分析相关操作功能 CatalogService 提供资源目录树图表组件 ⬝ 联合图
1 概述 联合图是以柱图、堆积柱图、线图或者堆积面积图任意两两组合的表现形式,展现两个或两个以上数据指标情况的图形。常用的联合图是线图和柱图的组合。以下将分别举例单Y联合图和双Y联合图两种图的画法。 2 单Y联合图 2.1 适用场景 单Y联合图只适用于以下条件都满足的情况: 1)指标数据的衡量单位相同,如:若一个是价格单位,一个是数量单位,不适用。 2)指标数据大小的数量级别不能相差太大,如:若价格单位,一个以千万计,一个以个计,不适用。 2.2 业务场景 1、场景描述:某大型零售公司,想要分析每个季度的销售额情况,以及和销售目标的对比,如下图所示: lianhe02.png 2、以产品内置Demo创建计算列
1 概述 计算列:添加到数据模型表或查询中的一个新列,对每一行都计算值。 如果当前分析的数据不包含获取期望结果所需的特定字段,可以使用公式或已封装的函数进行数据加工处理,定义新的列。计算列适用场景如下: 数据补充:计算列可以通过基于表中已有的列进行计算,生成新的列来补充数据。例如,可以根据产品的单价和销售数量计算销售额,并将该计算结果存储在计算列中; 数据转换:计算列可以用于将数据格式化或转换为其他形式。例如,可以将日期时间列分解为年、月、日等部分,并存储在计算列中,以便后续按时间进行分析; 数据筛选:计算列可以用于根据特定条件对数据进行筛选和标记。例如,可以创建一个计算列来标记销售额超过某个阈值的产品。 1、计算数据挖掘-支持向量机
概述 支持向量机,英文为Support Vector Machine,简称SVM。它是一种监督式学习的方法,它广泛的应用于统计分类分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。 支持 … ”案例数据,共12个特征和1个二类的目标标签,需要预测是否贷款。通过数据预处理及模型训练,如下图: 图片26.png 其中,数据探索是为了解各变量之间的相关关系,方便之后数据分析中参数特征的设定;特征转换是为了将各变量中的类别型变量变换成数值型变量,类别型无法进入模型,转换后方便算法模型学习;特征离散是把连续特征分段数据挖掘-梯度提升回归树
概述 梯度提升回归树是梯度提升树算法,原理是训练多棵回归树,每棵树建立是基于前一课树的残差,基函数为CART树,损失函数为平方损失函数的回归算法。 示例 使用“波士顿房价预测”案例数据,预测波士顿房价。 图片34.png 其中,相关性分析是为了分析特征变量与目标变量的相关性系数,方便特征选择 … 自动调参”功能使用。系统将对设置指定或范围内的参数值循环调参,匹配出最优的组合。详情请参考 。 启用自动调参 勾选该项,则系统自动调参数,不需要用户手工设置参数。 分裂特征的数量 取值范围:>=2的整数; 默认值:32。 对连续类型特征进行离散时的分箱数; 该值越大,模型会计数据挖掘-线性回归
概述 一种常用的回归方法,它是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计方法,通过凸优化的方法进行求解,以达到预测评估的效果。 示例 使用“波士顿房价预测”案例数据,预测波士顿房价。 图片35.png 其中,相关性分析是为了分析特征变量与目标变量的相关性 … 。 标准化 最小最大值归一化 最大绝对值归一化 自动调参设置 系统默认的各项参数值范围。 必须结合“启用自动调参”功能使用。系统将对设置指定或范围内的参数值循环调参,匹配出最优的组合。详情请参考 。 启用自动调参: 勾选该项,则系统自动调参数,不需要用户手工数据挖掘-支持向量机
概述 支持向量机,英文为Support Vector Machine,简称SVM。它是一种监督式学习的方法,它广泛的应用于统计分类分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。 支持 … ”案例数据,共12个特征和1个二类的目标标签,需要预测是否贷款。通过数据预处理及模型训练,如下图: 图片26.png 其中,数据探索是为了解各变量之间的相关关系,方便之后数据分析中参数特征的设定;特征转换是为了将各变量中的类别型变量变换成数值型变量,类别型无法进入模型,转换后方便算法模型学习;特征离散是把连续特征分段数据挖掘-梯度提升回归树
概述 梯度提升回归树是梯度提升树算法,原理是训练多棵回归树,每棵树建立是基于前一课树的残差,基函数为CART树,损失函数为平方损失函数的回归算法。 示例 使用“波士顿房价预测”案例数据,预测波士顿房价。 图片34.png 其中,相关性分析是为了分析特征变量与目标变量的相关性系数,方便特征选择 … 自动调参”功能使用。系统将对设置指定或范围内的参数值循环调参,匹配出最优的组合。详情请参考 。 启用自动调参 勾选该项,则系统自动调参数,不需要用户手工设置参数。 分裂特征的数量 取值范围:>=2的整数; 默认值:32。 对连续类型特征进行离散时的分箱数; 该值越大,模型会计