第126页,共677页。 显示 6,766 条结果 (0.444 秒)
数据模型-MDX模板示例
为了简化数据模型定制人员的工作,系统实现了常用日期计算的MDX模板,主要有:环比、同比、同期值、累计值、历年累计值、固定维度聚合。 在函数面板中以“常用度量”目录存储MDX模板。 环比 MDX模板设置如下: image2022-2-6_14-9-24.png 该时间计算度量数据效果如下: image2021-9-10_20-12-38.png 同比 MDX模板设置如下: image2022-2-6_14-7-38.png 该时间计算度量数据效果如下: image2021-9-10_20-20-30.png 同期值 计算上年同期值的MDX模板设置如下: image2022-2-6_14-11-9.png存储过程预览数据报错:Data Duration
(本文档仅供参考) 问题现象 存储过程数据集点击预览数据集,报错:获取总行数sql错误,Data Duration,而通过参数筛选缩小选择范围,则成功查询。 image2021-4-9_13-59-47.pngimage2021-4-9_14-0-1.png 问题原因 部分数据长度范围超过了数据库表字段设定的长度限制。 解决方案 排查查询的数据是否在数据库表字段的长度范围内,若数据量较大,建议可通过二分法或者添加参数值过滤的方式锁定有问题的数据范围,加大字段长度或更改有问题的数据,确保数据长度不超过字段长度即可解决此问题。手工操作部署
相关安装包请联系Smartbi官方支持support@smartbi.com.cn mailto:support@smartbi.com.cn获取。服务器缓存-数据集层面说明
(本文档仅供参考) 问题 服务器缓存是怎么设置的? 解决方案 前提:以下说明提到的【对象缓冲池】 在【系统选项】–》【缓存设置】中对应的是设置参数是【业务数据缓冲池】,【业务数据缓冲池】的【最大对象总数】设置是依据服务器内存来调整的,如果内存不够,【最大对象总数】却调整的很大,有可能造成内存溢出的问题,这些参数的调整请直接使用【自动优化】来自动调整。 image2019-7-16 10:14:24.png 详细说明: 通常产品提到服务器缓存和用户使用关联性比较大的是数据集的数据缓存,我们产品是以对象缓冲池的方式,来smartbiMPPMD数据库修改密码
(本文档仅供参考) windows环境,高速缓存库的默认密码是monetdb。 可以通过以下方式修改用户密码 启动mclient客户端 双击smartbiMPPMD目录的mclient.bat 脚本,启动mclient 客户端,连接smartbiMPPMD数据库。 image2024-11-11_15-56-12.png 连接smartbiMPPMD数据库 输入用户密码登录smartbiMPPMD数据库 默认用户:monetdb 默认密码:monetdb image2024-11-11_15-57-46.png 执行sql修改密码 执行以下sql,修改默认密码 注意:'<new数据挖掘-OneHot编码
用于设置在原字段名后追加后缀生成新的列,默认后缀为:OneHot; 该节点与抽取、变换节点组合使用; image2020-9-8_9-48-8.png 非法数据处理策略 选择对非法数据进行处理的策略,非法数据指空值或未进模型的类别值。 自动过滤:在转换时,对在抽取时未出现的类别或空值进行删除; 特殊编码:在转换时,对在抽取时未出现的类别以一种特殊编码进行转换; 非法检测:在转换时,对在抽取时未出现的类别进行报错提示。 示例 使用“银行零售客户流失数据”,选取性别列转换为OneHot编码,输出结果为数组组形式展示,(2,[1],[1.0])表示为总共有2个类别,索引为1的位置数据挖掘-随机森林
概述 随机森林指的是利用多棵树构成森林对样本进行训练并预测的一种分类器。但是每棵决策树之间没有关联,每棵树都是基于随机抽取的样本和特征进行独立训练。 随机森林算法广泛应用于分类问题。其是决策树的组合,将许多决策树联合到一起,以降低过拟合的风险。随机森林支持连续数据或离散数据进行二分类或多分类。 优势:可反映出特征重要性。 示例 使用“垃圾短信识别”案例数据,预测是否为垃圾短信。 image2020-6-5 16:22:21.png 其中,分词是为了将短信文本进行分成词语方便分析;停用词处理是为了去除不必要的词语、标点符号、语气词等;TF-IDF是为了计算文本数据的idf值,方便进入模型训练数据挖掘-随机森林
概述 随机森林指的是利用多棵树构成森林对样本进行训练并预测的一种分类器。但是每棵决策树之间没有关联,每棵树都是基于随机抽取的样本和特征进行独立训练。 随机森林算法广泛应用于分类问题。其是决策树的组合,将许多决策树联合到一起,以降低过拟合的风险。随机森林支持连续数据或离散数据进行二分类或多分类。 优势:可反映出特征重要性。 示例 使用“垃圾短信识别”案例数据,预测是否为垃圾短信。 image2020-6-5 16:22:21.png 其中,分词是为了将短信文本进行分成词语方便分析;停用词处理是为了去除不必要的词语、标点符号、语气词等;TF-IDF是为了计算文本数据的idf值,方便进入模型训练数据挖掘-归一化
归一化是一种无量纲处理手段,使物理系数值的绝对值变成某种相对值关系。主要是为了数据处理方便提出来的,把数据映射到某个范围之内处理,更加便捷快速。 归一化实质是一种线性变换,线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,这些性质是归一化/标准化的前提。比如有一个很重要的性质:线性变换不会改变原始数据的数值排序。 一般需要用到归一化的算法有:支持向量机、梯度提升决策树、逻辑回归、梯度提升回归树、线性回归、K均值、高斯混合模型。 归一化数据挖掘-归一化
归一化是一种无量纲处理手段,使物理系数值的绝对值变成某种相对值关系。主要是为了数据处理方便提出来的,把数据映射到某个范围之内处理,更加便捷快速。 归一化实质是一种线性变换,线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,这些性质是归一化/标准化的前提。比如有一个很重要的性质:线性变换不会改变原始数据的数值排序。 一般需要用到归一化的算法有:支持向量机、梯度提升决策树、逻辑回归、梯度提升回归树、线性回归、K均值、高斯混合模型。 归一化