第116页,共595页。 显示 5,949 条结果 (0.079 秒)
数据挖掘-FP-Growth
生活中的数据本身包含着各种联系,大数据的出现给我们带来了一种新的思维方式,那就是跳出先因后果的思维方式,用大量的数据统计结果去倒推原因,找到无关因素间的隐蔽联系,例如众人皆知的营销案例 "啤酒和尿布”。本文将介绍目前业界经典关联规则算法 FP-Growth,借助分析购物篮中商品数据,找出商品之间的关联关系,帮助用户挖掘出数据最大的价值,获得更大的经营收益。 FP-Growth 简介 FP-Growth(Frequent Pattern Growth)作为一种经典的关联规则算法,可以高效自动地从数据中挖掘出频繁集合,进而挖掘出潜在的关联规则,这些在企业营销决策的制定过程中具有重要的参考价值。另外,FP-Growth自助ETL-FTP/SFTP数据源
1. 概述 FTP数据源是指通过FTP方式读取数据。 image2023-7-31_17-28-40.png 2. 输入/输出 输入 没有输入端口。 输出 只有一个输出端口,用于输出数据到下一节点资源。 3. 参数配置 image2023-7-31_17-29-52.png 设置说明如下: 参数 说明 协议类型 FTP、SFTP 服务器ip或主机名 连接服务器的地址 服务器端口 连接服务器的端口 用户名 服务器用户名 密码 服务器密码 文件路径 填写读取文件的路径 自动生成表头 表示上传数据时是否生成表头:若5、测试数据挖掘及其组件
本节介绍smartbi连接数据挖掘、Spark、Hadoop、Python以及测试服务是否正常运行。 单机部署数据挖掘组件环境如下: 服务器IP 主机名 组件实例 部署目录 10.10.204.248 10-10-204-248 数据挖掘 /data 10.10.204.249 10-10-204-249 Spark,Hadoop /data 10.10.204.250 10-10-204-250 Python /data 请根据实际部署环境替换相关的配置信息。 1. 配置连接信息 配置数据挖掘连接信息前,请确认数据挖掘已正常部署和启动。部署文档参考:部署数据挖掘数据挖掘-异常值处理
概述 异常值检测和处理是数据挖掘中常用的数据处理方法,添加异常值检测节点,满足数据处理、欺诈行为检测等应用场景。 用户可以针对异常值选择相应的填充策略进行异常值的替换。 image2020-7-3 16:58:36.png 输入/输出 输入 一个输入端口,用于接收数据集 … :1.png 检测方法 四分位距:将数据按数值从小到大分成四等分,分隔点为Q1、Q2、Q3,四分位距则为上四分位值Q3与下四分位值Q1两者之差。 标准差法:假定数据是服从正态分布的,计算数据的标准差,对偏离标准差的数据进行处理如用均值、上下界数值、指定值替换。 自定义检测:可以自定义上下界,对异常值进行数据挖掘-异常值处理
概述 异常值检测和处理是数据挖掘中常用的数据处理方法,添加异常值检测节点,满足数据处理、欺诈行为检测等应用场景。 用户可以针对异常值选择相应的填充策略进行异常值的替换。 image2020-7-3 16:58:36.png 输入/输出 输入 一个输入端口,用于接收数据集 … :1.png 检测方法 四分位距:将数据按数值从小到大分成四等分,分隔点为Q1、Q2、Q3,四分位距则为上四分位值Q3与下四分位值Q1两者之差。 标准差法:假定数据是服从正态分布的,计算数据的标准差,对偏离标准差的数据进行处理如用均值、上下界数值、指定值替换。 自定义检测:可以自定义上下界,对异常值进行样式 - 电子表格设置数据条为左对齐,预览之后非0数值并没有左对齐
(本文档仅供参考) 问题说明 在excel里面预览是正常的,所有数据都是居左显示 image2019-10-8 18:26:57.png 但是发布预览之后,非0数值并没有左对齐 image2019-10-8 18:28:56.png 解决方案 该问题是第三方插件的bug,可以通过宏规避 如果是静态数据,可直接通过以下客户端宏来进行规避: image2019-10-9 9:39:53.png ClientSide spreadsheetReport onRender function main(spreadsheetReport, isAjaxRefreshCallback数据挖掘-行过滤
概述 V10.5.12版本中新增了行过滤节点,该节点合并了旧版本的行选择和过滤节点,能够根据不同的筛选或者删除条件,选择对应的行。该节点提供了两种类型的筛选器。基本筛选器可以根据用户需求设置不同的筛选或者删除条件,选择不同数量的行;自定义筛选器通过写SQL语句(片段),对数据按照过滤表达式进行筛选。 image2023-2-3_16-0-41.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出行过滤的结果。 参数设置 设置行过滤的参数: image2023-2-3_15-10-0.png 设置说明如下: 参数数据挖掘-行过滤
概述 V10.5.12版本中新增了行过滤节点,该节点合并了旧版本的行选择和过滤节点,能够根据不同的筛选或者删除条件,选择对应的行。该节点提供了两种类型的筛选器。基本筛选器可以根据用户需求设置不同的筛选或者删除条件,选择不同数量的行;自定义筛选器通过写SQL语句(片段),对数据按照过滤表达式进行筛选。 image2023-2-3_16-0-41.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出行过滤的结果。 参数设置 设置行过滤的参数: image2023-2-3_15-10-0.png 设置说明如下: 参数自助数据集-筛选器
筛选器作用等同于过滤或者参数,用于查询出符合条件的数据结果。 自助数据集的筛选器用于:当数据集数据量比较大时,可添加筛选器,对数据集的数据进行筛选过滤,以便用户能够快速获取其所需的数据。 自助数据集中通过筛选器设置的多个条件表达式之间只能是“and”关系。 操作步骤 1.新建一个自助数据集,在右上方有筛选器入口。 筛选器入口.png 2.点击 "+" 后会弹出编辑界面。 image2018-9-27 10:16:28.png 编辑界面设置项说明如下: 选项 描述 可选列 显示当前数据集中包含的所有字段。 条件 显示逻辑运算符,比如“=、>、<、<>、LIKE、NOT LIKE数据模型多表建模实现先对维表限制条件在进行表关联
(本文档仅供参考) 期望在数据模型多表建模时,实现先在子查询中过滤数据,在进行多表关联。 生成的sql简化后类似于:select xxx from A left join (select xxx from B where xxx=xxx) on A.xxx =B.xxx 场景: 先取顾客表数据日期为前一天的数据,取到数据后再与订单表做建模关联。这样就不建议直接在数据模型中引用数据源表了,建议通过SQL查询进行提前过滤,或者通过可视化SQL查询进行过滤。 image2024-11-21_16-21-8.png 以下步骤介绍了通过可视化SQL查询实现对维表限制条件在进行表关联 步骤一:在数据模型中新建可视化