第32页,共605页。 显示 6,044 条结果 (0.07 秒)
跨库联合数据源
在V11最新版本中,在“系统选项 -> 高级设置”中增加 设置项:DISABLE_UNIONDB,代表是否禁用“跨库联合数据源”: 当DISABLE_UNIONDB=false时,代表不禁用,即在数据连接节点下仍然能看到”跨库联合数据源“节点。 当DISABLE_UNIONDB=true时,代表禁用,即在数据 … 按钮进行保存。 82.png 配置项 说明 驱动程序存放目录 选择使用产品内置的驱动程序 连接字符串 格式为: jdbc:smartbi:uniondb://<hostname>:<port>/ 参数说明: hostname:跨库联合数据源的主机名、IP地址 port:跨库关系数据源-连接Smartbi Jdbc4Olap数据源
连接步骤 1、新建关系数据源 在“数据连接”界面选择“关系数据库”分类页,点击 Smartbi Jdbc4Olap ,如图: image2019-10-17 16:15:23.png 2、连接配置 进入到“新建关系数据源”界面,进行如图配置后,测试连接成功后保存即可。 2022-02-15_15-57-34.png 各个配置项说明如下: 配置项 说明 名称 输入关系数据源的名称 驱动程序类型 驱动程序类型选择:Smartbi Jdbc4Olap 驱动程序类 选择驱动程序类型后,系统自动生成驱动程序类。 连接字符串 输入连接字符串,关于Smartbi数据挖掘-词频统计
概述 用于统计词在文本出现的次数。该节点只能选取数组类型的数据。常用于展示词云图。 输入/输出 输入 一个输入端口,用于接收分词后的数据集 输出 一个输出端口,用于输出词在文本出现的次数 参数设置 参数名称 说明 备注 选择标签列 选择需要统计的标签列 必填 示例 使用“深圳企业信息”示例数据,选择分词和停用词处理后的列(企业名称_seg_words_filtered),输出结果如下图所示: 图片5.png 词频统计数据挖掘-词频统计
概述 用于统计词在文本出现的次数。该节点只能选取数组类型的数据。常用于展示词云图。 输入/输出 输入 一个输入端口,用于接收分词后的数据集 输出 一个输出端口,用于输出词在文本出现的次数 参数设置 参数名称 说明 备注 选择标签列 选择需要统计的标签列 必填 示例 使用“深圳企业信息”示例数据,选择分词和停用词处理后的列(企业名称_seg_words_filtered),输出结果如下图所示: 图片5.png 词频统计数据挖掘-GBDT特征选择
数 取值范围:>=1的整数,默认值为空 这个值用来限制叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝。 示例 使用“居民用电数据”,预测是否漏电。特征选择3个特征和一个标签列,需选择的特征数量为2,选择方法为分类(二分类),其他参数默认。结果输出 … 概述 特征选择是为算法服务的,选择不同的特征会直接影响到模型的效果。GBDT特征选择,就是使用GBDT算法,来自动选择相关性高的特征。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出增加了离散后的字段的数据集数据挖掘-GBDT特征选择
数 取值范围:>=1的整数,默认值为空 这个值用来限制叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝。 示例 使用“居民用电数据”,预测是否漏电。特征选择3个特征和一个标签列,需选择的特征数量为2,选择方法为分类(二分类),其他参数默认。结果输出 … 概述 特征选择是为算法服务的,选择不同的特征会直接影响到模型的效果。GBDT特征选择,就是使用GBDT算法,来自动选择相关性高的特征。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出增加了离散后的字段的数据集Smartbi Jdbc4Olap数据连接
连接步骤 1、新建关系数据源 在“数据连接”界面选择“关系数据库”分类页,点击 Smartbi Jdbc4Olap ,如图: 548.png 2、连接配置 进入到“新建关系数据源”界面,进行如图配置后,测试连接成功后保存即可。 2022-02-15_15-57-34.png 各个配置项说明如下: 配置项 说明 名称 输入关系数据源的名称 驱动程序类型 驱动程序类型选择:Smartbi Jdbc4Olap 驱动程序类 选择驱动程序类型后,系统自动生成驱动程序类。 连接字符串 输入连接字符串,关于Smartbi Jdbc4Olap数据源字符串的设置,详情请参考 多维数据挖掘-随机森林特征选择
导致过拟合。 树的个数 取值范围:>=1的整数;默认值为20。 随机森林中决策树的棵数。 衡量准则 gini 裂分标准,entropy表示熵值,gini表示基尼指数; entropy 示例 使用“鸢尾花数据”,预测鸢尾花类别。选取4个特征列和1个标签列 … 。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出增加了离散后的字段的数据集。 参数设置 参数名称 说明 备注 选择特征列 选择需要的特征列,必须是数值列 必填(特征列中不能含有null数据挖掘-随机森林特征选择
导致过拟合。 树的个数 取值范围:>=1的整数;默认值为20。 随机森林中决策树的棵数。 衡量准则 gini 裂分标准,entropy表示熵值,gini表示基尼指数; entropy 示例 使用“鸢尾花数据”,预测鸢尾花类别。选取4个特征列和1个标签列 … 。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出增加了离散后的字段的数据集。 参数设置 参数名称 说明 备注 选择特征列 选择需要的特征列,必须是数值列 必填(特征列中不能含有nullExcel数据导入时Excel中是名称,希望导入到数据库中是code
的“数据页签-》数据校验-》数据校验” image2018-10-12 15:25:30.png (3)在弹出的数据校验窗口的“设置”页签中,“允许”一项”选择“序列” image2018-10-12 15:27:45.png (4)来源一项,选择sheet2中达标情况的所有选项,如下 … (本文档仅供参考) 问题说明 如下图,某公司每月需通过excel导入功能,将当月各个销售的成交额和达标情况录入到数据库中。 其中第5列“达标情况”中总共存在“达标、不达标和中止”三种名称,但是客户的数据库中是以code来记录的,“达标”对应的code是“1”,“不达标”对应的code是“0”,“中止”对应