第20页,共167页。 显示 1,662 条结果 (0.05 秒)
数据挖掘-全表统计
概述 全表统计是对观测数据进行不同的统计分析,可统计信息:最小值、最大值、平均值、标准差、方差、总和、行数、唯一值、缺失值、偏度、峰度、中位数、下四分位、上四分位、众数等指标;还可使用箱线图和直方图尽可能简单全面表达数据所蕴含的数值范围、分布等信息。 输入/输出 输入 一个输入端口,用于接收数据集 … :行数、最大值、最小值、平均值、下四分位、中位数、上四分位、唯一值。 连续数据分桶数 设置连续数据分桶数,分桶数为>=2的整数,统计结果中,数值变量会按照这个分桶数来分箱展示 必填 显示异常值 设置是否在箱线图中显示异常值。默认不勾选。 示例 使用“鸢尾花数据挖掘-全表统计
概述 全表统计是对观测数据进行不同的统计分析,可统计信息:最小值、最大值、平均值、标准差、方差、总和、行数、唯一值、缺失值、偏度、峰度、中位数、下四分位、上四分位、众数等指标;还可使用箱线图和直方图尽可能简单全面表达数据所蕴含的数值范围、分布等信息。 输入/输出 输入 一个输入端口,用于接收数据集 … :行数、最大值、最小值、平均值、下四分位、中位数、上四分位、唯一值。 连续数据分桶数 设置连续数据分桶数,分桶数为>=2的整数,统计结果中,数值变量会按照这个分桶数来分箱展示 必填 显示异常值 设置是否在箱线图中显示异常值。默认不勾选。 示例 使用“鸢尾花ETL执行报:connection reset或查询慢问题排查思路
,查看执行结果 image2024-7-15_10-23-24.png 4、如上图所示,数据库实际查询返回时间也很久,超时就会重置,此时建议项目咨询dba耗时久的原因,确认为什么数据量不大耗时要10分钟以上,以及是否确实设置了10分钟超时。数据挖掘-OneVsRest
概述 One-vs-Rest算法将一个给定的二分类算法有效地扩展到多分类问题应用中,也叫做“One-vs-All.”算法。它采用一个基础的Classifier然后对于k个类别分别创建二分类问题。类别i的二分类分类器用来预测类别为i还是不为i,即将i类和其他类别区分开来。最后,通过依次对k个二分类分类器进行评估,取置信最高的分类器的标签作为i类别的标签。 示例 使用方式如下图: image2024-7-23_10-47-28.png 支持向量机条件格式 条件格式设置箭头预警效果
,如果上面的条件格式不符合要求,想把箭头放在数据的后面,可以自行百度找到相关的excel教程实现,如: image2021-7-22_16-16-52.png 类似百度经验上的例子,如果不符合,可以找符合自己场景的条件格式 https://jingyan.baidu.com/article/c45ad29cf35572441753e29b.html https://jingyan.baidu.com/article/c45ad29cf35572441753e29b.html 或者百度上的示例: http://www.360doc.com/content/17/0330/14/30119560_641416253.shtml房地产投资分析面板
可对房地产投资数据分年度进行分析,让管理者可以更好地掌握每年投资情况,效果如下图所示: 2021-10-13_11-00-55.png 2、集团项目投资情况 组件名称 组件类型 数据模型 定制方法 实现效果 已完成总投资 文本组件 房地产投资分析 字段:正常签约数据挖掘-异常值处理
:1.png 检测方法 四分位距:将数据按数值从小到大分成四等分,分隔点为Q1、Q2、Q3,四分位距则为上四分位值Q3与下四分位值Q1两者之差。 标准差法:假定数据是服从正态分布的,计算数据的标准差,对偏离标准差的数据进行处理如用均值、上下界数值、指定值替换。 自定义检测:可以自定义上下界,对异常值进行处理。 参数设置 四分位距:四分位距中下界的计算公式为Q1 - p * (Q3 - Q1);上界的计算公式为Q3 + p * (Q3 - Q1);公式中的p就是参数设置中的值,用户可以根据需求调整公式中的p,p需为非负数。 标准差法:标准差中下界的计算公式: 均值 - 系数 * 标准差;上界数据挖掘-异常值处理
:1.png 检测方法 四分位距:将数据按数值从小到大分成四等分,分隔点为Q1、Q2、Q3,四分位距则为上四分位值Q3与下四分位值Q1两者之差。 标准差法:假定数据是服从正态分布的,计算数据的标准差,对偏离标准差的数据进行处理如用均值、上下界数值、指定值替换。 自定义检测:可以自定义上下界,对异常值进行处理。 参数设置 四分位距:四分位距中下界的计算公式为Q1 - p * (Q3 - Q1);上界的计算公式为Q3 + p * (Q3 - Q1);公式中的p就是参数设置中的值,用户可以根据需求调整公式中的p,p需为非负数。 标准差法:标准差中下界的计算公式: 均值 - 系数 * 标准差;上界2021年Demo中心运维情况分析
通过用户行为统计-系统使用情况,对用户访问设备进行分析,可以看到,当前访问Demo中心大部分用户选择使用PC访问,移动端的访问只占了很少一部分,在后期运维中,提升PC端体验效果的同时,移动端体验也要予以重视。 用户访问设备分析效果如下图所示: 2021-07-21_10-45-29.png 用户访问数据挖掘-WOE编码
。 参数设置 参数名称 说明 备注 选择列 用于选择进行异常值处理设置的字段。 31.png 必填(特征列中不能含有null) 分箱方式 分位数分箱:根据设置的数值算出对应的分位数,按照算出的分位数对字段进行分箱。 自定义分箱:用户可以自定义对字段进行分箱的区间。 不参与分箱:该字段不参与分箱。 设置 分位数分箱:将字段分成指定个部分,每一部分作为一个箱。比如设置分箱数为4,则计算出25%、50%、75%这3个分位数,将字段分为四个分箱。 自定义分箱:用户自己定义分箱区间。如-INF,500,1000