第43页,共184页。 显示 1,835 条结果 (0.028 秒)
数据挖掘-数据清洗V2
用于选择进行数据清理的字段: image2023-2-3_14-54-39.png 检测方法 数值型列 将空值替换为最大值: 将空值替换为最小值: 将空值替换为平均值: 将空值替换为中位数: 删除控制占比高于百分比的列 将控制替换为出现频率最高的值 将空值替换为指定值 过滤整行空值 值替换 非数值型列 删除控制占比高于百分比的列 将控制替换为出现频率最高的值 将空值替换为指定值 过滤整行空值 移除所有空格 移除首尾空格 移除标点符号 移除数字 移除字母 设为小写 设为大写 首字母大写 值替换 字符串替换 正则替换 指定值数据挖掘-WOE编码
。 参数设置 参数名称 说明 备注 选择列 用于选择进行异常值处理设置的字段。 31.png 必填(特征列中不能含有null) 分箱方式 分位数分箱:根据设置的数值算出对应的分位数,按照算出的分位数对字段进行分箱。 自定义 … ,INF。 当分箱方式为“不参与分箱“,这里不需要设置。 选择标签列 选择做为标签列的字段。 必填 示例 image2020-7-23_17-15-53.png 效果 使用“银行信用贷款预测“,选择”职业“,“婚姻状态”,“教育程度”,“是否有房”,“是否有贷款”,“月多维分析如何实现数据标注效果?
) { var rowHead = "2016年"; //设置需要标记的行头 var columnHead = "销售量"; //设置需要标记的列 signData(olapQuery, rowHead, columnHead); } //标注指定行和列的数据 function signData … ]; while (row) { var cell = row.firstChild; //获取列 while (cell) { // 行头的判断 if (cell.innerHTML.indexOf(rowHead) != -1) { //列标记数据挖掘-数据清洗V2
用于选择进行数据清理的字段: image2023-2-3_14-54-39.png 检测方法 数值型列 将空值替换为最大值: 将空值替换为最小值: 将空值替换为平均值: 将空值替换为中位数: 删除空值占比高于百分比的列 将空值替换为出现频率最高的值 将空值替换为指定值 过滤整行空值 值替换 非数值型列 删除空值占比高于百分比的列 将空值替换为出现频率最高的值 将空值替换为指定值 过滤整行空值 移除所有空格 移除首尾空格 移除标点符号 移除数字 移除字母 设为小写 设为大写 首字母大写 值替换 字符串替换 正则替换 指定值数据挖掘 - CBLOF
数据的概率越大。 CBLOF算法适用于当没有已知正常的数据时,对所有输入的新数据进行异常值的辨别。 输入/输出 输入 一个输入端口,接收要异常检测的数据 输出 一个输出端口,用于输出检测后的结果 参数设置 参数名称 说明 备注 选择特征列 选择用于计算的特征列 选择多个列,建议使用标准化后的特征列 绝对多数占比 0到1之间的小数, 用于区分大簇和小簇的阈值 占比和超过这个数值的会被区分为大簇 突降倍数 用于区分大簇和小簇的阈值 大簇和小簇界限间两个簇大小的倍数差 异常占比 异常数据点的占多维分析如何实现数据标注效果?
) { var rowHead = "2016年"; //设置需要标记的行头 var columnHead = "销售量"; //设置需要标记的列 signData(olapQuery, rowHead, columnHead); } //标注指定行和列的数据 function signData … ]; while (row) { var cell = row.firstChild; //获取列 while (cell) { // 行头的判断 if (cell.innerHTML.indexOf(rowHead) != -1) { //列标记宏示例:如何写宏删除线上展示时扩展数据中的边框
: image2018-11-22 10:13:21.png 类型 对象 事件 ClientSide spreadsheetReport onRender /** * 说明:此示例数据列为B列,A列为空白列,C列也为空白,仅供参考,实际报表样式需另作调整 * 类型 … =spreadsheetReport.parseCellIndex(PosList[i])[1]; //获取列号 var rowIndex=spreadsheetReport.parseCellIndex(PosList[i])[0]; //获取行号 //设置A列右边创建日期表
1 概述 日期表,故名思义,就是存放日期的表。 新人常会感到困惑,业务表(销量、业绩、采购、检验、出/入库等单据)里不都有日期列吗,为什么还要把日期放在一张额外的表里? 大家都知道,不管零售、制造、金融还是其他什么行业,但凡涉及到数据统计,都离不开日期维度的分析,如累计销量、环比增速、同比增长等,之所以不用业务表的日期列,是因为单独日期表有以下几个特点: 日期表的日期是独立完整的,没有缺失,这对日期维度的分析来说很重要。 业务表里的日期只有业务发生时才会有记录,否则就缺失;日期表除了自带的日期列,可以衍生出其他日期相关列,诸如年、月、日、季、周等,一年365行数据。业务表就不同了,一个公司有N个部门,一个部门有N个员工枚举分组示例
分组”,将“发货城市”字段数据分为“一线城市、二线城市、其他城市”三组。 示例效果 image2019-10-18 17_8_51.png 实现步骤 1、创建透视分析 创建透视分析,待选列包含三个字段“产品类别”、“发货城市”和“销售额”。行区选择“产品类别”,列区选择“发货城市”,度量区选择“销售额”。如图: image2019-11-26 14_32_27.png 2、新建分组字段 1)待选列选中“发货城市”字段,右键 > 新建分组字段 ,如图: image2019-10-18 17:2:45.png 进入“自定义分组字段”设置界面: image2019-10-18 17:3:10.png 2)设置“自定义电子表格⬝ 页面设置
、如果设置了区域,必须包含底端标题行所在行的第一个单元格,把右端标题列所有列的每列第一个单元格。 4、表头的配置项,和Excel本身的打印标题配置项相通,两者设置其中之一就可以,不影响功能本身。 左端标题行 设置左端标题行固定,翻页时左端标题行不动。 表尾 底端标题行 设置底端标题行固定,翻页时底端标题行不动。 右端标题列 设置右端标题列固定,翻页时右端标题列不动。