第277页,共477页。 显示 4,767 条结果 (0.046 秒)
数据挖掘-特征转换
概述 特征转换是实现特征类型的转换,将类别型变量转换为数值型变量,方便算法训练学习计算。 例如:将特征列中“男”“女”变量转换为0、1的数值。结合特征抽取中抽取和变换节点组合使用。 输入/输出 输入 没有输入端口。 输出 一个输出端口,用于接入下一个节点,与抽取节点组合使用。 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Index; 该节点与抽取、变换节点组合使用; 图片1.png 示例 使用“鸢尾花数据”,将种类(Species)该列的类别型数据变换数据挖掘-正则化
概述 用于标准化输入数据,使每个向量具有单位范数;Normalizer需要输入参数p,指定标准化范数,默认值为2;该标准化方法可用于提升算法效果。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择列 用于选择需要正则化的列。 必填,列数<=10 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 P范数 指定标注化范数。 必填多维分析参数
包含两种方式切片参数和自定义的参数。 我们对多维数据集设置数据权限,则对多维分析参数也是生效的。如果参数的设置备选值中不包含其权限内成员,则会显示为null。 为了解决这种情况,我们应该修改参数备选值和默认值的MDX语句,结合函数GetUserAccessibleMembers()一起使用。 GetUserAccessibleMembers() 获取指定维度层次中当前用户具有数据访问权限的成员。参数有两个: 第一个参数:“hierarchy”即维度层次。 第二个参数:“Self”表示获取顶层成员;“SelfAndChildren”表示获取顶层成员及其子成员;“Children”表示获取顶层成员的子成员。数据挖掘-最小最大归一化
概述 最小最大值归一化是对原始数据的线性变换,使结果映射到[0,1]区间。设minA和maxA分别为特征A的最小值和最大值,将A的一个原始值x通过MinMaxScaler映射到区间[0,1]间,公式为:x' = (x-minA)/(maxA-minA)。 输入/输出 输入 没有输入端口 输出 一个输出端口,与抽取、变换节点组合使用 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 图片1.png 示例 使用“鸢尾花数据”,特征选择4个特征数据挖掘-最大绝对值归一化
概述 最大绝对值归一化通过除以每个特征内的最大绝对值将每个特征映射到[-1,1]的范围;它不会移动和中心化数据,因此不会破坏任何的稀疏性。 输入/输出 输入 没有输入端口 输出 一个输出端口,与抽取、变换节点组合使用 参数设置 参数名称 说明 备注 新增列后缀 用于设置在原字段名后追加后缀生成新的列,默认后缀为:Normalized; 必填 图片3.png 示例 使用“鸢尾花数据”,特征选择4个特征列,最大绝对值归一化为[-1,1]范围的数据,输出结果如下图: 图片4.png 最大绝对值归一化数据挖掘-词袋
概述 词袋是为了对句子进行分词,根据分隔符将句子分割开来,分成一个个独立的词语或者单词。常用于英文文本分割语句。 输入/输出 输入 一个输入端口,用于接收数据集 输出 一个输出端口,用于输出分隔后的结果 参数设置 参数配置 说明 备注 选择文本项 选择需要分割的文本列 必填 分隔符 输入指定的分隔符 必填 示例 使用“垃圾短信识别”数据,选择需要分割的文本列,设置”/”分隔符进行分割,输出结果如下图: image2020-6-4 11_11_16.png 词袋数据挖掘-主题-词分布(LDA)
概述 主题-词分布(LDA)指的是LDA模型训练后输出的每个主题和每个主题输出的词及概率分布。 常用于做词云图分析。 参数设置 参数名称 说明 主题词数 每个主题输出的词数。 示例 使用文本数据,分析主题词分布情况以及各词的概率权重。主题-词分布(LDA)设置的参数每个主题输出的词数为8,输出结果如下: 图片8.png 其中topic0-5表示输出的5个主题的概率权重,termName表示输出的词,其中主题概率为0.0表示该主题所对应的词是没有的。termCode表示输出的词编码。 主题-词分布(lda)Smartbi产品可视化查询是否支持子查询和并查询?
参考示例: 可视化查询—实现并查询和子查询 https://history.wiki.smartbi.com.cn/pages/viewpage.action?pageId=35750238 支持子查询和并查询。在创建可视化查询时,可以新建多个查询,可以设置查询类型。在可视化查询里面,【查询1】默认为主查询 … 区】的右下角的属性框里,【压缩重复行】设置是相当于在对应的SQL里添加distinct。with as的写法,数据集预览报错
(本文档仅供参考) 问题 原生SQL查询:如图 带有with as的写法,在获取总行数会报SQL错误,查看执行sql,是由于组装的sql有问题,关闭查询设置的总行数,就没问题,请问有办法解决吗? CatchEFE3(07-25-(07-30-14-41-38).jpg 解决方案 该原生SQL基于sql server数据库进行创建,设置了获取总行数的情况下sql server数据库的with as不支持select count(*)进行外层封装, 由于目前产品逻辑获取总行数需要进行select count(*)进行封装,如需获取总行数建议更换sql的写法实现with as的效果,如下图: InsertPic_mysql8数据库,在smartbi展示日期时间与数据库日期时间不一致
问题是由于mysql8时区问题,可在数据源url连接中添加参数 "serverTimezone=UTC" 设置时区与数据库中一致,从而解决此问题。 注:关于相关的说明可以参考网上的说明:https://blog.csdn.net/starlemon2016/article/details/90314649 https://blog.csdn.net/starlemon2016/article/details/90314649,时区可根据数据库设置的实际时区进行修改,不一定是UTC。 ximage2021-1-5_20-36-26.png mysql时间不一样 mysql展示和数