搜索

Help

第147页,共618页。 显示 6,172 条结果 (0.098 秒)

  1. 数据挖掘-随机森林

    概述 随机森林指的是利用多棵树构成森林对样本进行训练并预测的一种分类器。但是每棵决策树之间没有关联,每棵树都是基于随机抽取的样本和特征进行独立训练。 随机森林算法广泛应用于分类问题。其是决策树的组合,将许多决策树联合到一起,以降低过拟合的风险。随机森林支持连续数据或离散数据进行二分类或多分类。 优势:可反映出特征重要性。 示例 使用“垃圾短信识别”案例数据,预测是否为垃圾短信。 image2020-6-5 16:22:21.png 其中,分词是为了将短信文本进行分成词语方便分析;停用词处理是为了去除不必要的词语、标点符号、语气词等;TF-IDF是为了计算文本数据的idf值,方便进入模型训练
  2. 数据挖掘-支持向量机

    概述 支持向量机,英文为Support Vector Machine,简称SVM。它是一种监督式学习的方法,它广泛的应用于统计分类分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。 支持 … ”案例数据,共12个特征和1个二类的目标标签,需要预测是否贷款。通过数据预处理及模型训练,如下图: 图片26.png 其中,数据探索是为了解各变量之间的相关关系,方便之后数据分析中参数特征的设定;特征转换是为了将各变量中的类别型变量变换成数值型变量,类别型无法进入模型,转换后方便算法模型学习;特征离散是把连续特征分段
  3. 数据挖掘-支持向量机

    概述 支持向量机,英文为Support Vector Machine,简称SVM。它是一种监督式学习的方法,它广泛的应用于统计分类分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。 支持 … ”案例数据,共12个特征和1个二类的目标标签,需要预测是否贷款。通过数据预处理及模型训练,如下图: 图片26.png 其中,数据探索是为了解各变量之间的相关关系,方便之后数据分析中参数特征的设定;特征转换是为了将各变量中的类别型变量变换成数值型变量,类别型无法进入模型,转换后方便算法模型学习;特征离散是把连续特征分段
  4. 数据挖掘-朴素贝叶斯

    概述 一种基于概率网络的分类算法,它在朴素贝叶斯定理的基础上取消了关于各属性关于类标号条件独立的苛刻条件,通过各类的先验概率计算待分类样本的后验概率,得到测试样本属于各类别的概率。它对于解决复杂设备不确定性和关联性引起的故障有很大的优势。 示例 使用“城市功能区识别”案例数据,预测城市功能区为专营商业区还是 … 的组合。详情请参考  。 启用自动调参 勾选该项,则系统自动调参数,不需要用户手工设置参数。 模型类型 离散数据 根据特征数据的先验分布不同,可选择以下朴素贝叶斯算法: multinomial:多项式朴素贝叶斯,此选项为默认选项。 complement:补充朴素贝叶斯
  5. 数据挖掘-朴素贝叶斯

    概述 一种基于概率网络的分类算法,它在朴素贝叶斯定理的基础上取消了关于各属性关于类标号条件独立的苛刻条件,通过各类的先验概率计算待分类样本的后验概率,得到测试样本属于各类别的概率。它对于解决复杂设备不确定性和关联性引起的故障有很大的优势。 示例 使用“城市功能区识别”案例数据,预测城市功能区为专营商业区还是 … 的组合。详情请参考  。 启用自动调参 勾选该项,则系统自动调参数,不需要用户手工设置参数。 模型类型 离散数据 根据特征数据的先验分布不同,可选择以下朴素贝叶斯算法: multinomial:多项式朴素贝叶斯,此选项为默认选项。 complement:补充朴素贝叶斯
  6. 数据挖掘-评分预测

    概述 评分预测使用训练好的评分卡模型对具体数据进行预测,用于输出最终的信用评分。 输入/输出 输入 两个输入端口,输入1接收训练好的评分卡模型,输入2接收训练数据 输出 一个输出端口,用于输出预测结果 示例 图片1.png 查看输出可看到具体的预测结果: 图片2.png 注意事项 评分预测接入的数据必须为WOE编码之前的数据,且选取的特征应与进行WOE编码的特征相同。
  7. 数据挖掘-评分预测

    概述 评分预测使用训练好的评分卡模型对具体数据进行预测,用于输出最终的信用评分。 输入/输出 输入 两个输入端口,输入1接收训练好的评分卡模型,输入2接收训练数据 输出 一个输出端口,用于输出预测结果 示例 图片1.png 查看输出可看到具体的预测结果: 图片2.png 注意事项 评分预测接入的数据必须为WOE编码之前的数据,且选取的特征应与进行WOE编码的特征相同。
  8. 数据挖掘-去除重复值

    概述 去除重复值是用于删除数据集中的重复行(假如有两行相同,保留其中一行)。 image2020-5-29 14:4:51.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出去除重复值的结果。 参数设置 设置去除重复值的参数: image2021-9-23_15-33-52.png 设置说明如下: 参数 说明 选择列 用于选择进行去除重复值设置的列: image2021-9-23_15-34-14.png 示例 1、原先关系数据源的输出结果有12条数据,对其进行去除
  9. 数据挖掘-去除重复值

    概述 去除重复值是用于删除数据集中的重复行(假如有两行相同,保留其中一行)。 image2020-5-29 14:4:51.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出去除重复值的结果。 参数设置 设置去除重复值的参数: image2021-9-23_15-33-52.png 设置说明如下: 参数 说明 选择列 用于选择进行去除重复值设置的列: image2021-9-23_15-34-14.png 示例 1、原先关系数据源的输出结果有12条数据,对其进行去除
  10. 导出引擎、数据挖掘引擎、olap引擎去掉版本更新提示

    (本文档仅供参考) 问题描述 当管理员登录系统时,出现如下图的提示,提示要更新导出引擎、数据挖掘的版本,但是在实际的业务使用场景中,并不需要使用到导出引擎和数据挖掘,那么怎么将此提示去掉呢? image2023-11-17_16-28-24.png image2023-11-17_16-28-38.png 问题原因 导出引擎、数据挖掘通常是需要与Smartbi版本保持一致使用的,在管理员登录系统时,会自动检测版本信息,当更新了Smartbi的war包而未同步更新导出引擎以及数据挖掘时,由于其版本与Smartbi版本不匹配,则会弹出提示更新的信息弹框。 解决方案 将如下的配置项置空,配置为空则不会再检测版本信息,也就
    FAQ中心十一月 25, 2024