第126页,共322页。 显示 3,212 条结果 (0.032 秒)
数据挖掘-正则表达式
概述 在处理文本过程中,经常会使用正则表达式去处理,目前ETL正则处理文本功能较弱,多个ETL项目中均有实施人员提到希望增强该功能。 image2023-1-29_13-57-9.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出正则表达式处理后的结果。 参数设置 设置正则表达式处理的参数: image2023-1-29_13-58-56.png 设置说明如下: 参数 说明 选择列 要进行正则表达式处理的列。 正则表达式 要匹配的正则表达式。 输出方式 匹配透视分析(旧)如何实现删除特定行?
该宏示例在 V10.5上 验证通过 提示:本文档的示例代码仅适用于本文档中的示例报表/场景。若实际报表/场景与示例代码无法完全适配(如使用功能不一致,或多个宏代码冲突等),需根据实际需求开发代码。 本示例主要为了说明透视分析服务端宏的用法,示例就是删除第六行和第11行的数据,以及第4列的数据。 宏类型 类型 对象 事件 ServerSide INSIGHT beforeBuildHTML 宏代码 //删除第六行和第11行的数据,以及第4列的数据 function main(insightCellList) { //获取行列数 var rowSize值域范围
定义导入数据的合法范围,用于验证Excel中某一列的数据必须在指定的可选值列表内。 功能入口 入口1:在“系统导航栏”选择 公共设置,展开资源目录区,在“值域范围”或其节点下文件夹的更多操作0.jpg中选择 新建 > 值域范围。 入口2:在“公共设置”界面主菜单选择 值域范围。 1457.png 选择数据源 … 。 image2021-8-26_15-42-44.png 值:SQL表达式,支持where过滤。 值字段:设置SQL中哪一列作为值域值。 静态列表 手动设置值列表,并支持批量导入。 image2021-8-26_15-43-46.png 批量导入 选择静态列表后激活,可导入UTF-8编码的文本格式多维分析—分页显示
应用场景 当组合多个维度时,数据量会急剧增长,如果单页显示所有数据,性能会变慢,而且不易阅读。使用分页显示功能,可以保证速度并提供良好阅读体验。 分页又分为行分页与列分页,下面主要说明行分页的设置,列分页设置方法类似行分页。 image2019-11-21 17:34:39.png 操作步骤 可以在系统管理中进行全局设置,或为多维报表中进行局部设置。 全局设置: 在“系统运维”界面选择 系统选项 菜单,进入“系统选项”界面选择 多维分析,在“行分页显示”选择“是”,系统的初始设置值为“是”。 2022-02-11_10-49-21.png 报表局部设置: 1.点击报表工具条中的 设置 按钮多维分析维度过滤器—取维度前十
到行区,度量“销售量”、“销售成本”、“销售额”、“利润”到列区,并刷新报表。结果如下图: image2019-11-21 16:1:43.png 说明:多维分析的详细创建步骤请参考多维分析章节 http://wiki.smartbi.com.cn/pages/viewpage.action?pageId=44499429。 实现步骤 创建维度过滤器 在右侧工作区“维度过滤器”节点的更多操作菜单中选择 新建 ,进入“新建维度过滤器”界面。 在弹出的“新建维度过滤器”窗口,输入名称,“层次结构”选择“商店”,“过滤类型”列依次选择“度量值”、“Measures”、“销售额”,“运算符”选择“TOPN”,“表达式”输入数据挖掘-标准化
输入 没有输入端口 输出 一个输出端口,与抽取、变换节点组合使用 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 图片17.png 单位标准差归一化 数据减去均值再除以标准差 勾选则将输出入据进行单位标准差归一化 平均数据中心化 数据减去均值 勾选则将数据进行中心化 示例 使用“鸢尾花数据”,特征选择4个特征列,勾选单位标准差归一化,输出结果如下图: image2020-6-4 10_7_49.png 标准化数据挖掘-相关性分析
概述 相关性分析是用来反映变量之间的相关关系的密切程度。相关系数的取值一般介于-1和1之间。当相关系数为正的时候,意味着变量之间是正相关的;当相关系数为负的时候,意味着变量之间是负相关。 相关性分析常用在数据探索阶段,当我们并不了解原始数据各字段之间的关系时,通过相关性分析,可以看到各个字段之间的相关性,其后进行的数据分析工作可以围绕这些相关性展开。 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出相关系数的数据集。 参数设置 参数名称 说明 备注 选择列 用于选择进行相关性分析的字段列 必填数据挖掘-特征离散
概述 特征离散的作用是将连续的数据进行等距离散化,就是把连续特征分段,每一段内的原始连续特征无差别的堪称同一个新特征,用户可以根据数据的特征自定义离散区间。 输入/输出 输入 没有输入端口 输出 一个输出端口,用于接入下一个节点,与抽取节点组合使用。 参数设置 参数名称 说明 备注 离散区间数 选择需要进行离散化的特征列,必须是数值列 必填范围是>=2的整数,默认为10 新增列后缀 离散后会生成新的字段,默认在原有字段名后追加Buckrizer后缀。该后缀支持修改。后缀默认值为Buckerizer主题区-表格
框 image2021-8-4_11-25-43.png 颜色 设置表格的颜色。 点击选择颜色,选择颜色为“绿色”效果如图: image2021-8-4_11-27-39.png 样式 自定义表格样式,从“列头、行头、数据”三个区域进行设置。 image2021-8-4_11-32-17.png 列头、行头和数据的设置项如下: 区域色:设置区域颜色。 字型\大小:设置文字的字型和大小。 加粗:设置文字加粗。 斜体:设置文字为斜体。 下划线:设置文字加下划线。 对齐方式:设置文字对齐方式:有“居左、居中、居右”三种对齐方式。 颜色:设置文字颜色。 关于表格样式设置的优先级:表格自身电子表格⬝ 总排序
,SSR_GetSubCells(C3))",如图: image2019-1-29 11:1:10.png 公式说明如下: 1)RANK(number,ref,[order]):返回某数字在一列数字中相对于其他数值的大小排名。 number:需要求排名的单元格。 求排名的单元格的字段必须为数值型。 ref:排名的参照数值区域。 order: 为“0”或省略:模拟降序存储的列表来对数字进行排序。 为“1”:模拟升序存储的列表来对数字进行排序。 “RANK"公式对重复数的排位相同,但重复数的存在将影响后续数值的排位。例如,在一列按升序排列的整数中,假设整数10出现两次,其排位为5,则11的排位为7。 2