搜索 -

第52页，共108页。显示 1,077 条结果 (0.024 秒)

数据挖掘-排序
概述排序节点可实现对单个字段或多个字段组合的升序或降序排序。 image2020-5-29 15:34:25.png 输入/输出输入一个输入端口，用于接收数据集。输出一个输出端口，用于输出排序的结果。参数设置设置排序的参数： image2020-5-29 15:35:36.png 设置说明如下：参数说明排序用于选择排序字段及排序优先级： image2020-5-29 15:36:42.png 1、添加排序：添加排序字段，可单选或多选排序列。当选择多列时，平台会根据选择的第一列进行排序
Smartbi Insight V10帮助中心 • 二月 15, 2022
数据挖掘-标准化
概述标准化数据使数据具有单位标准差归一化或平均数据中心化。单位标准差归一化：将输入数据进行单位标准差归一化，使转换后的数据具有单位标准差；平均数据中心化：将输入数据进行中心化，使转换后的数据均值为0。如果某个特征的标准差为0，则该特征的返回结果也为0。输入/输出输入没有输入端口输出一个输出端口，与抽取、变换节点组合使用参数设置参数名称说明备注新增列后缀用于设置在原字段名后追加后缀生成新的列，默认后缀为：Normalized；必填图片17.png 单位标准差归一化
Smartbi Insight V10帮助中心 • 二月 15, 2022
数据挖掘-拆分列
概述拆分列节点是根据特定的分隔符，将字符串字段的内容进行分割。 image2021-1-8_17-45-45.png 输入/输出输入一个输入端口，用于接收数据集。输出一个输出端口，用于输出拆分列的结果。参数设置设置拆分列的参数： image2021-12-17_9-27-40.png 设置说明如下：参数说明选择列选择需要分割的列。数据源分隔符分隔符：逗号、分号、空格、tab、- 。自定义分隔符：自定义分隔符为特殊分隔符时，请输入对应的转义字符。常用特殊分隔符的转义
Smartbi Insight V10帮助中心 • 二月 15, 2022
数据挖掘-相关性分析
概述相关性分析是用来反映变量之间的相关关系的密切程度。相关系数的取值一般介于-1和1之间。当相关系数为正的时候，意味着变量之间是正相关的；当相关系数为负的时候，意味着变量之间是负相关。相关性分析常用在数据探索阶段，当我们并不了解原始数据各字段之间的关系时，通过相关性分析，可以看到各个字段之间的相关性，其后进行的数据分析工作可以围绕这些相关性展开。输入/输出输入一个输入端口，用于接收数据集。输出一个输出端口，用于输出相关系数的数据集。参数设置参数名称说明备注选择列用于选择进行相关性分析的字段列必填
Smartbi Insight V10帮助中心 • 四月 21, 2021
数据挖掘-全表统计
概述全表统计是对观测数据进行不同的统计分析，可统计信息：最小值、最大值、平均值、标准差、方差、总和、行数、唯一值、缺失值、偏度、峰度、中位数、下四分位、上四分位、众数等指标；还可使用箱线图和直方图尽可能简单全面表达数据所蕴含的数值范围、分布等信息。输入/输出输入一个输入端口，用于接收数据集输出没有输出端口参数设置参数名称说明备注选择列选择需要统计的特征列（列数<=10）必填可选统计选择需要的指标进行统计分析。可选的指标：偏度、峰度、总和、众数、方差、标准差、缺失值。使用全表统计节点默认统计的指标
Smartbi Insight V10帮助中心 • 一月 11, 2022
数据挖掘-RFM
概述通过对选择的特征列按照阈值进行二分（可按均值、指定值、中值），将客户数据划分为不同的客群。输入/输出输入一个输入端口，用于接收前置节点传下来的数据集。输出一个输出端口，用于输出接收到的数据集。参数设置参数名称说明备注选择特征列可选列：选择需要进行划分的字段，仅可选数值型字段；划分方法：可按均值、中值和指定值进行二分；指定值：当划分方法选择指定值时，用于设置划分的阈值；必填示例使用“航空公司客户价值分析”数据，划分结果生成两个标签列BinaryClass和RFMClass
Smartbi Insight V10帮助中心 • 二月 15, 2022
数据挖掘-TF-IDF
概述一种统计方法，TF意思是词频，IDF意思是逆文本频率指数，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF值越高，说明该词越重要。输入/输出输入没有输入端口输出一个输出端口，与抽取、变换节点组合使用。参数设置参数名称说明备注特征项数输入的数值n，代表算法最终会筛选出TF-IDF值最高的n个词必填示例图片3.png 效果使用“垃圾短信识别”数据，选择
Smartbi Insight V10帮助中心 • 二月 15, 2022
数据挖掘-卡方特征选择
概述卡方特征选择与特征选择的功能类似，都是用于筛选特征到算法节点。卡方特征选择是根据卡方检验的数据相关性对特征变量进行排序，然后选择与目标变量相关性较大的特征变量。不同之处是卡方特征选择只设置需要选择的特征数量，然后该节点会根据目标字段列自动选择最相关的特征。输入/输出输入一个输入端口，用于接收前置节点传下来的数据集。输出一个输出端口，用于输出接收到的数据集。参数设置参数名称说明备注选择特征列用于设置待选择的特征列(人工选择可能相关的特征列) 必填（特征列中不能含有null）选择标签列用于设置
Smartbi Insight V10帮助中心 • 六月 30, 2020
数据挖掘-PCA(主成分分析)
概述 PCA（主成分分析）是统计学上一种常用的方法，主要用来对高维数据进行降维，通过对多个维度进行线性组合，获得较少且能够描述数据特征的主成分指标，减少由于数据维度过多带来的庞大计算量，降低算法的复杂度，使用最少数量的主成分来解释最大量的方差。因为它可减少变量数目以此避免多重共线性，适用于预测变量较多大于观测值数目的情况。输入/输出输入一个输入端口，用于接收前置节点传下来的数据集。输出一个输出端口，用于输出接收到的数据集。参数设置参数名称说明备注选择特征列用于设置待选择的特征列必填（特征列中不能含有
Smartbi Insight V10帮助中心 • 二月 15, 2022
数据挖掘-特征离散
概述特征离散的作用是将连续的数据进行等距离散化，就是把连续特征分段，每一段内的原始连续特征无差别的堪称同一个新特征，用户可以根据数据的特征自定义离散区间。输入/输出输入没有输入端口输出一个输出端口，用于接入下一个节点，与抽取节点组合使用。参数设置参数名称说明备注离散区间数选择需要进行离散化的特征列，必须是数值列必填范围是>=2的整数，默认为10 新增列后缀离散后会生成新的字段，默认在原有字段名后追加Buckrizer后缀。该后缀支持修改。后缀默认值为Buckerizer
Smartbi Insight V10帮助中心 • 二月 15, 2022

关注我们

服务支持