第72页,共184页。 显示 1,835 条结果 (0.051 秒)
ETL-计算时间区间有多少个工作日
[开始时间]和[结束时间]字段为日期date格式。如果非日期格式需进行字符转换。 b.添加派生列节点,计算字段[间隔日期]:sequence([开始],[结束]),该计算会返回[间隔日期]的数组。 再新建一个常量字段,如:"1"(为了后面做关联使用汇总依据介绍
5、10、25、50、75、90、95)、属性。 1、这些汇总依据目前只能在数据模型引擎V2.0才能使用,如果没有开启数据模型引擎V2.0,选项是禁用状态。 2、汇总依据都是通过数据库本身的函数来执行的,是基于数据库本身的算法得出的; 只有“属性”是通过计算列ATTR函数实现的; 如果有一些数据库本身是不支持 … 得出的。 百分位 数据库中对应函数PERCENTILE()(有的数据库可能不叫这个名称)。PERCENTILE返回当前条件下与指定数字对应的百分位处的值, 是基于数据库本身的算法得出的。 属性 产品封装的计算列函数ATTR。如果查询结果中所有行仅具有单个相同值,则返回原始值,否则返回操作日志
文该列中的image2021-8-19_16-53-26.png按钮,弹出“操作日志详细信息”窗口:image2021-8-19_16-52-40.png 字段操作 字段列头更多菜单支持如下操作: image2021-8-20_11-13-3.png 上图中的菜单详情请参见:菜单列表 https … 详情请参见:操作类型 https://wiki.smartbi.com.cn/pages/viewpage.action?pageId=76695618。 操作标识或父标识:用于输入操作标识或父标识。 开始时间、结束时间:用于设置筛选操作的时间段。 字段过滤 在字段列的更多菜单中选择 过滤 > 定制大数据量抽取性能优化
300G+的目录上。 2.3 关系数据源节点配置 提升关系数据源节点执行性能,主要通过两个设置,分区设置跟选择列。 2.3.1 分区设置 image2024-7-18_16-59-56.png 分区设置为了把表数据相对平均分成多个分区,抽取程序会尽可能一个分区分配一个线程进行并行抽取,这样能够极大的提高 … 就有8个线程并行抽取,理论上性能随着并行数量线性提升。 注意:如果表的数据量比较大,上面每个步骤的操作可能会有一定耗时,请耐心等待。 2.3.2 选择列 选择列是为了只选择需要的字段,减少数据传输,从而提升性能。如果需求上要求所有字段都是需要的,那这里无需数据挖掘-日期时间
概述 用户在录入日期类型数据时,经常会遇到日期格式不统一的问题。 image2023-1-29_14-9-3.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出日期时间处理后的结果。 参数设置 设置日期时间处理的参数: image2023-1-29_14-9-56.png 设置说明如下: 参数 说明 选择列 要进行日期时间处理的列。 新增列后缀 输出结果的列名后缀。 输入字段格式 输入字段的日期时间格式 输出字段格式 处理后输出字段的日期时间格式数据挖掘-预测
预测节点右键可查看预测结果输出。 输出字段 输出字段 概念及其作用 features 特征向量,是由特征列组成的特征向量。 featuresNormalized 归一化后的特征向量,将特征向量进行归一化转换。 rawPrediction 直接概率,即每个可能标签置信度的度量。 probability 条件概率,在给出原始预测的情况下估算每个类别的概率。 prediction 预测列,根据特征列计算出的预测结果。 预测TopN分析
是指对考察指标前N名或后N名进行分析。 系统支持快捷TopN分析和自定义TopN分析,其中快捷的TopN分析只支持前5名和后5名的情况。 操作入口: 快捷TopN分析:在多维分析指定维成员的列按钮中单击 过滤 按钮,弹出下拉菜单,选择 前5名 或 后5名,多维分析只显示前5名或后5名的维成员及数据。 image2019-11-1 14:57:58.png 自定义TopN分析:在多维分析指定维成员的列按钮中单击 过滤 按钮,弹出下拉菜单,选择 定制过滤,弹出“定制过滤”对话框,在“TopN过滤”或“BottomN过滤”的文本输入框中输入任意整数。 image2019-11-1 14:59:15.png 说明数据挖掘-最小最大归一化
端口 输出 一个输出端口,与抽取、变换节点组合使用 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 图片1.png 示例 使用“鸢尾花数据”,特征选择4个特征列,最大最小归一化为[0,1]区间的数,输出结果如下图: 图片2.png 最小最大归一化数据挖掘-最大绝对值归一化
概述 最大绝对值归一化通过除以每个特征内的最大绝对值将每个特征映射到[-1,1]的范围;它不会移动和中心化数据,因此不会破坏任何的稀疏性。 输入/输出 输入 没有输入端口 输出 一个输出端口,与抽取、变换节点组合使用 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 图片3.png 示例 使用“鸢尾花数据”,特征选择4个特征列,最大绝对值归一化为[-1,1]范围的数据,输出结果如下图: 图片4.png 最大绝对值归一化数据挖掘-词袋
概述 词袋是为了对句子进行分词,根据分隔符将句子分割开来,分成一个个独立的词语或者单词。常用于英文文本分割语句。 输入/输出 输入 一个输入端口,用于接收数据集 输出 一个输出端口,用于输出分隔后的结果 参数设置 参数配置 说明 备注 选择文本项 选择需要分割的文本列 必填 分隔符 输入指定的分隔符 必填 示例 使用“垃圾短信识别”数据,选择需要分割的文本列,设置”/”分隔符进行分割,输出结果如下图: image2020-6-4 11_11_16.png 词袋