第214页,共418页。 显示 4,180 条结果 (0.04 秒)
数据挖掘-PCA(主成分分析)
概述 PCA(主成分分析)是统计学上一种常用的方法,主要用来对高维数据进行降维,通过对多个维度进行线性组合,获得较少且能够描述数据特征的主成分指标,减少由于数据维度过多带来的庞大计算量,降低算法的复杂度,使用最少数量的主成分来解释最大量的方差。因为它可减少变量数目以此避免多重共线性,适用于预测变量较多大于观测值数目 … null) 需选择的特征数量 从待选择的特征列中输出特征列的数量 必填范围是[1,已选择特征的数量]的整数,默认值为1 示例 使用“鸢尾花数据”,选择4个特征列和设置需选择的特征数量为2,则输出的结果为2个主成分指标。结果如下图: image2020-6-5 16_33_58.png数据挖掘-SMOTE
概述 SMOTE算法通过对少数样本的分析可以合成新的样本,是一种过采样技术。 image2020-9-1_16-42-57.png 输入输出 输入 只有一个输入端口,用于接收原始数据集。 输出 只有一个输出端口,用于输出过采样后的全部数据集。 参数说明 设置SMOTE的参数: image2020-11-6_17-9-21.png 设置项说明如下: 参数 说明 备注 选择标签列 用于选择输入数据集的某一列作为标签列。 单选 标签类别 输入目标列中需要进行SMOTE算法的类别值。 文本框,标签的类别值(必填数据挖掘-TF-IDF
概述 一种统计方法,TF意思是词频,IDF意思是逆文本频率指数,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF值越高,说明该词越重要。 输入/输出 输入 没有输入端口 输出 一个输出端口,与抽取、变换节点组合使用。 参数设置 参数名称 说明 备注 特征项数 输入的数值n,代表算法最终会筛选出TF-IDF值最高的n个词 必填 示例 图片3.png 效果 使用“垃圾短信识别”数据,选择集成后报表查询条件以下拉列表的形式进行选择,每次只能选择一个
: 当orgCode为多个值时,报表查询条件以下拉列表的形式进行机构选择,每次只能选择一个机构,然后进行数据查询; 解决方案 该效果可以通过url中给参数传递参数备选值stanbyValue的方式实现,具体可参考wiki文档:https://history.wiki.smartbi.com.cn/pages组合分析如何做到参数分组,例如100元以下,100-5000元,5000-10000元
(本文档仅供参考) 需求 我想做一个参数,里面做分段,例如100元以下,100-5000元,5000-10000元....透视分析可以自定义分组字段,但是不知道组合分析如何实现这样的功能 方案 这个可以通过其他类型数据类型的参数结合过滤器实现。 == Step 1 ==== 在公共设置-参数定义新建一个参数,数据类型选择其他类型 image2018-10-31 11:44:46.png 参数备选值默认值写法参考如下,CategoryID字段根据实际情况替换 image2018-10-31 11:45:3.png == Step 2 ==== 过滤器写法如下,注意不用写条件nginx 413 request Entity too Large
、导入资源等操作时上传的文件可能是比较大的,如果文件大小超过了nginx配置的最大值,则nginx会不允许上传并报错413 解决方案 修改nginx配置文件的client_max_body_size值,如下参考: client_max_body_size 1000m;超出最大单元格个数
的增加会大量增加内存使用量。 虽然在一定范围内可以进行调整,但是建议不要设置太大的值,避免JVM内存溢出。具体设置的内存值与报表内容相关,需要具体实际测试才可以确定。 设置项入口:系统选项-性能优化-报表最大单元格数 其他版本的设置入口可见:电子表格报表输出数据报DataRows>20000电子表格-开始时间大于结束时间弹出提示的宏示例不生效
问题分析: Wiki文档中的示例,日期真实值格式默认是yyyy-MM-dd,但是实际的场景中日期真实值格式却是yyyyMMdd,此时需要依据实际的场景去更改宏代码,使用正则表达式,将字符串(yyyymmdd)转换成日期格式(yyyy-mm-dd),如 replace(/^(\d{4})(\d{2})(\d数据模型实现动态查询列效果
方式一:动态查询维度字段 步骤1、数据模型添加SQL子查询; 步骤2、写入SQL语句,其中select输出字段中添加参数,如下图所示: image2023-11-6_20-43-7.png 步骤3、保存SQL查询后,在数据模型层映射参数,设置参数默认值备选值 image2023-11-6_20-43-37.png 步骤4、保存数据模型后,基于该数据模型创建报表,拖拽动态查询列,可发现效果如下: image2023-11-6_20-44-2.png 注:该方式更适用于维度字段实现动态查询的效果; 方式二:动态查询度量字段 步骤1、数据模型层新建参数,将要动态查询的度量字段添加,如下图所示业务库迁移方案
手动兼容 在产品中调整ETL对应节点,在ETL中明确NULL与空值的处理规则;统一布尔字段值的处理方式(如0/1或TRUE/FALSE)。 4 业务库迁移兼容性适配实操示例 4.1 源库与目标库信息完全一致的迁移 适用情况 同类型数据库迁移(如 Oracle→Oracle、MySQL … ,或者布尔字段处理不一致 逻辑判断出错 源库—》目标库,NULL处理差异 ETL中明确NULL与空值的处理规则;统一布尔字段值的处理方式(如0/1或TRUE/FALSE)。 4 数据精度问题 数值字段在不同数据库中精度定义不一致(如浮点型精度丢失) 数据计算结果不准 源库—》目标库,数据