Smartbi V10-数据挖掘

随着数据挖掘在各种领域不断被应用，越来越多的人开始使用机器学习，而使用机器学习不仅需要用户具备一定专业知识，还需要花费大量的精力来进行算法与模型的选择。为了进一步降低用户的使用门槛，我们在数据挖掘中，支持使用AutoML向导快速创建数据挖掘实验，可以自动化的完成更多的工作，也能让没有太多专业知识的人也能使用机器学习。

功能简介

新版本，数据挖掘中支持通过AutoML向导快速创建回归、分类和聚类实验。

新建回归、分类或聚类实验时，只需配置数据源，算法，特征，系统自动生成实验。

参考文档

关于更多AutoML的功能，详情请参考数据挖掘-AutoML 。

+【数据挖掘】机器学习新增关联规则生成节点

背景介绍
随着数据爆炸式增长，如何从海量数据中快速的挖掘出有用信息是当今社会亟待解决的问题。新版本的新增关联规则生成节点，支持输出更多关联规则的指标（置信度、提升度等），同时能自由筛选出多对多、多对一等不同关联形式，以此帮助用户快速生成关联规则、衡量其中的关联性，从海量数据中挖掘出有价值的数据，助力企业做出科学决策。

功能简介
新版本，数据挖掘中新增关联规则生成节点。

基于 FP-Growth 训练后的模型输入后，能够输出详尽的关联规则分析指标：

参考文档

关于关联规则功能，详情请参考关联规则生成。

^【数据挖掘】引擎调度机制执行粒度细化至单个节点

背景介绍

旧版本的引擎调度策略是把实验作为整体进行调度，实验中的节点无法脱离出来独立执行。若引擎能够按照节点粒度进行调度，这样会给引擎在功能和扩展性方面带来好处。

功能简介

新版本，引擎按照节点粒度进行调度，可以带来以下几点优势：

可以做到断点续跑，如果在数据量大的情况下，会节省很大时间，提高实验的效率；
能单独执行一个节点，在实验的设计跟调式阶段带来很大便利；
可以对单节点进行资源控制，防止某个节点占用资源太大，对其它节点造成影响；
调度更加灵活，同个实验中的不同节点，可以在不同机器中执行；
部署架构扩张性更好，可以横向扩张节点的执行机器。

具体在 Smartbi上体现为节点的右键菜单增加“执行该节点”和“从当前节点开始执行”功能项。

^【数据挖掘】增加节点复制和备注功能

背景介绍

机器学习实验往往牵涉多个节点，各节点之间关系也较为复杂，更或者自定义的算法节点只有实验构建者才明白其中的含义；同时在实验构建过程中，可能出现节点复用的情况。因此在V10版本中，在实验和节点增加备注功能、节点增加复制功能，便于实验的交流和提高实验的构建速度。

功能简介

在画布空白处单击右键，选择“添加备注”，会弹出富文本编辑框，可以添加对实验背景的介绍等内容。

选中需要复制的节点，单击右键，出现‘复制’，也可以同时选中多个节点：

拖动鼠标覆盖需要选择的节点，箭头滑过的矩形区域的节点都被选中；
按住Crtrl键，鼠标逐个单击需要复制的节点。

详情参考

关于节点的备注和复制功能，详情请参考实验界面介绍。

+【数据挖掘】新增Kafka数据源节点

背景介绍

Kafka是一种高吞吐量的分布式发布订阅消息系统，经常用于实时流数据架构，提供实时分析。它具有高吞吐量、低延迟，每秒可以处理几万条消息，延迟最低只有几毫秒，以及可扩展性、持久性、可靠性、容错性、高并发等优点。因此，Smartbi在V10版本新增了Kafka数据源。

功能简介

Kafka作为数据源，有以上三种使用场景：

准实时的数据处理：通过任务调度，持续消费kafka数据，提供给一系列数据处理节点进行处理，处理后的结果可以输出到目标数据库
模型自学习：通过任务调度，持续消费kafka数据进行模型自学习
模型批量预测：通过任务调度，定时消费kafka数据进行批量预测

这里展示当Kafka作为数据源时的模型自学习：

详情参考

关于kafka数据源，详情请参考数据挖掘-数据的输入和输出。

+【数据挖掘】数据预处理增加下采样节点

背景介绍

在数据挖掘过程中，原始数据的不均匀分布会影响到数据特征抽取或模型学习数据特征的效果，出现错判的情况。新版本新增下采样节点，可对原始数据进行初步加工，对出现频次较高的数据按照一定规则抽取一定数据使得整体分布均匀。

功能简介

新增下采样节点，可通过移除数据量较多类别的部分数据，使样本达到均衡。

参考文档

关于数据挖掘的下采样节点，详情请参考采样。

+【数据挖掘】数据预处理新增异常值处理节点

背景介绍

无论是机器学习还是数据分析，总是要面对一大堆数据，总是免不了出现异常值的可能性,，异常值可以大幅度地改变数据分析和统计建模的结果，可能会造成回归、方差分析等统计模型假设的基本假设受影响等问题。

功能简介

V10版本新增异常值处理节点，可对存在异常的数据进行检测和识别，且对识别出的异常值进行处理。

详情参考

关于数据挖掘的异常值处理，详情请参考异常值处理。

+【数据挖掘】统计分析增加RFM节点

背景介绍

RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中，RFM模型是被广泛提到的。因此Smartbi在V10版本新增RFM节点，为更多的营销决策提供支持。

功能简介

RFM节点通过对选择的特征列按照阈值进行二分（可按均值、指定值、中值），将客户数据划分为不同的客群。如下图，左侧资源树统计分析节点下新增RFM节点。

详情参考

关于RFM功能，详情参考数据挖掘-RFM 。

+【数据挖掘】评分卡分析新增WOE编码节点

背景介绍

评分卡是将模型变量WOE编码方式离散化之后运用Logistic回归模型进行的一种二分类变量的广义线性模型，也是信用风险评估和互联网金融领域常用的建模方法，比如信用卡风险评估、贷款发放等业务。除此之外，在其它领域也能够看到评分卡被用来作为分数评估，比如常见的客服质量打分、芝麻信用分打分等。

功能简介

WOE则是对原始自变量的一种编码形式，要对一个变量进行WOE编码，需要首先把这个变量进行分组处理，之后再计算出WOE值和IV值，根据这两个值来判断变量的预测强度。

因此新版本新增WOE编码节点，可以对字段分箱后计算WOE值和IV值。

在查看分析结果中记录了变量的IV值，分箱区间及每个区间的WOE值。

详情参考

关于WOE编码，详情请参考数据挖掘-WOE编码。

+【数据挖掘】文本分析增加词向量节点

背景介绍

在文本分析中，我们会先采用词频编码，根据词频信息进行简单主题聚类或文本分类。但是这种方法忽略了词序信息，也无法判断出两个词语之间的关系。而Word2vec词向量可以很好地解决这个问题，它的思路是通过训练，将每个词都映射到一个较短的词向量上来。所有的这些词向量就构成了向量空间，进而可以用普通的统计学的方法来研究词与词之间的关系。

功能简介

词向量节点作为文本处理常用的特征工程手段、在情感分析、语义分析上可以用来增加模型准确性、计算相似性等功能。新版本，左侧资源树文本分析节点下新增词向量节点。

在查看输出结果可以看到每个文本对应的词向量：

详情参考

关于词向量节点的功能，详情参考数据挖掘-词向量。

+【数据挖掘】文本分析增加LDA和主题-词分布（LDA）节点

背景介绍

LDA可以用于从海量的文本中，根据统计模型，自动提取出由关键词组成的热门主题，让我们快速知道，这些大量无规则的文本中，主要讲述了什么内容。业务人员在商业分析的过程中也是离不开海量的文本数据，如果将基于LDA的主题分析应用在商业分析上，那么将会给业务人员带来极大的方便。

功能简介

LDA主题模型主要用来推测文档的主题分布，它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题分布后，便可以根据主题分布进行主题聚类或文本分类。新版本，左侧资源树文本分析节点下新增LDA和主题-词分布（LDA）节点。

详情参考

关于主题-词分布（LDA）节点的功能，详情参考 V9数据挖掘-主题-词分布（LDA）【Beta版本功能】。

+【数据挖掘】多分类算法新增多层感知机节点

背景介绍

数据中潜藏的规律按照以往的聚类，回归等传统分析手段很难被发现，Smartbi Mining新增多层感知机算法节点。多层感知机（MLP，Multilayer Perceptron）也叫人工神经网络（ANN，Artificial Neural Network），通过神经网络中的节点和隐藏层对数据特征进行‘学习’，并以模型形式保存，用于分类、预测等使用场景。

功能简介

新版本，多层感知机作为多分类算法节点与其他机器学习节点同样使用。

详情参考

关于数据挖掘的多层感知机，详情请参考多层感知机。

+【数据挖掘】数据集新增新建、编辑数据集入口

背景介绍

目前Smartbi的挖掘模块中，数据集节点只有选择数据集功能，为了方便用户可以在挖掘的实验界面中新建和编辑数据集，新版本新增了新建、编辑数据集的入口。

功能简介

新版本在数据集节点的参数设置界面新增了新建、编辑数据集的入口。

详情参考

关于数据源的数据集，详情请参考数据集。

+【数据挖掘】查看输出支持预览数据导出到本地

背景介绍

在挖掘实验过程中，对每一个执行完的节点资源我们都可以预览该节点的数据，如果可以将预览数据导出到本地，这将便于用户进行后续的处理或分析。

功能简介

新版本支持预览数据导出到本地，在查看输出窗口新增“下载预览数据”选项。

注意事项

此处会把预览的数据以csv文件的方式下载到本地，不会下载全量数据，数据量最多100条。

+【自助ETL/数据挖掘】数据预处理新增值替换节点

背景介绍

新版本，在自助ETL和数据挖掘中新增值替换节点，可以对指定的数据进行替换，可以帮助用户替换掉数据中一些缺失、无效、错误的值。

功能简介

新版本，在自助ETL和数据挖掘中新增值替换节点，可以对指定列进行值、字符串、正则替换。

+【自助ETL/数据挖掘】数据源新增Excel文件、读取Excel sheet节点

背景介绍

在实际应用中，不同的用户有着不同的数据导入需求，有的用户想要通过导入Excel数据文件的方式修改表结构等。为了满足用户需求，新版本我们在自助ETL和数据挖掘中，新增Excel文件数据源，可通过上传Excel文件的方式导入数据，丰富了数据来源。

功能简介

新版本，在自助ETL和数据挖掘的数据源节点中，新增Excel文件、读取Excel文件sheet文件节点，可通过上传Excel文件的方式导入需要的数据。

详情参考

关于Excel文件节点、读取Excel文件sheet文件节点功能，详情请参考 Excel文件数据源。

+【数据挖掘】统计分析支持高维数据可视化节点

背景介绍

高维数据是指具有多个属性的数据，它在我们日常生活中十分常见，比如各种类型的多媒体数据、文档词频数据等等。面对这些高维数据，我们该如何展示各种属性之间的联系和发现它们之间的规律。其实在过去的数十年里，可视化领域已经产生了大量优秀的技术，如散点图矩阵、平行坐标图等，以帮助用户分析这类数据。

功能简介

新版本新增高维数据可视化节点，支持通过矩阵图和平行坐标图对高维数据进行可视化分析。

矩阵图效果：

平行坐标图效果：

详情参考

关于数据挖掘的高维数据矩阵，详情请参考 V9数据挖掘-高维数据矩阵【Beta版本功能】。

^【数据挖掘】Python算法节点功能强化

背景介绍

以前的版本，用户上传的自定义Python算法节点无法与产品内置的训练、预测、评估节点兼容使用，也无法训练模型供服务调用。为了满足上述需求，通过服务器上传的Python节点支持模型训练、模型保存、模型预测、模型评估、服务等，增强了产品的灵活性和弹性。

功能简介

新版本，Python算法节点支持模型训练、模型保存、模型预测、模型评估、服务等。

示例1：上传的Python算法节点支持模型预测、评估。

示例2：上传的Python算法节点支持部署服务。

^【数据挖掘】数据集节点支持所有的Smartbi数据集

背景介绍

为了方便用户的使用，我们在数据挖掘的数据源中新增数据集节点，支持所有的Smartbi数据集，用户可以使用已经建好的数据集进行数据挖掘，丰富了输入数据的来源，减少了用户操作。

功能简介

数据集节点支持所有Smartbi数据集：

^【自助ETL/数据挖掘】关系数据源支持参数设置

背景介绍

以前的版本，用户想要在ETL或数据挖掘中使用参数切换数据，需要在执行之前人工干预数据流里的数据，操作繁琐也不够自动化。为了简化用户的操作，新版本在自助ETL和数据挖掘模块中，关系数据源支持参数设置，用户可以通过改变参数查询条件值来改变数据，满足了用户不同的数据需求。

功能简介

在自助ETL和数据挖掘中，实验工具栏新增“参数设置”按钮，关系数据源新增SQL语句输入框，支持通过参数设置和在输入框中拼接SQL语句的方式来设置关系数据源的参数。

参数设置页面如下：

注意事项

在SQL输入框中，表达式的第一个字段使用的是表头真名。

详情参考

关于参数设置功能，详情请参考数据挖掘-参数设置。

^【数据挖掘】关系目标表（追加）节点支持回退功能

背景介绍

在实际应用中，用户在进行ETL调度时，发现某次调度的数据有问题想要进行重跑，需要先把之前已经入库的数据删除，再将新数据追加到目标库中。为了满足用户需求，新版本在数据挖掘中关系目标表（追加）节点支持回退功能。

功能简介

新版本，在数据挖掘中关系目标表（追加）节点支持回退功能，关系目标表写入数据之前，用户可以先删除一部分或全部的数据，再将新数据追加到目标库中。

注意事项

目前只有ClickHouse数据源（19.4.2.7版本及以上）支持回退功能。

^【自助ETL/数据挖掘】关系数据源支持设置分区字段

背景介绍

数据抽取可以将源数据库的原始数据抽取到高速缓存库中，可以秒级获取大级别量的数据结果。为了进一步提升抽取性能，新版本在自助ETL和数据挖掘中关系数据源支持设置分区字段，可以减少系统压力，保证抽取ETL抽取平稳、快速的运行。

功能简介

新版本，在自助ETL和数据挖掘中关系数据源支持设置分区字段，可显著提升抽取性能。

在分区设置界面，分区字段支持设置数值型与时间类型的字段，并支持设置分区数量、分区字段最小值和最大值。

注意事项

数据库Presto暂不支持设置分区字段。

^【数据挖掘】节点输出字段支持排序

功能简介

新版本，节点输出字段的顺序按照选择字段的先后顺序排序。

输出的字段顺序如图：

注意事项

1、WOE编码、异常值处理节点不支持排序。

2、有些没有数据输出的节点，在节点设置时会显示选择节点的顺序，但输出时仍按照原始顺序排序，如特特征选择节点。

^【数据挖掘】元数据编辑支持修改原字段名和排列字段顺序

背景介绍

在实际场景中，Excel数据需要用到较多的数据处理操作，在一些项目中，需要对元数据的数据字段名称进行修改和排序。针对这一需求，使元数据编辑支持字段名修改和排序，可以更全面地对数据进行处理，使数据更好地满足用户需求。

功能简介

元数据编辑节点配置项中的名称列可进行更改，和别名类似。鼠标移动到名称列显示其原始的名字。同时增加一列操作列，可上调、下调数据进行排序。

参考文档

元数据编辑的详细操作请参考文档：元数据编辑。

^【数据挖掘】派生列、聚合、全表统计节点新增多个函数

背景介绍

新版本，派生列、聚合、全表统计节点新增多个函数，用于满足用户更多的需求，提升工作效率。

功能简介

1、派生列节点增加行最小值、行最大值函数。

2、聚合节点增加中位数、标准差、方差、collect_set 函数。

3、全表统计节点增加计算众数的方法。

^【数据挖掘】关联规则支持输出频繁项集及其支持度

背景介绍

Smartbi现有的FP-Growth算法输出的是模型根据关联规则推荐的预测结果，在实际应用中，也希望输出对算法挖掘出的关联规则及其支持度，通过这些信息能够发现隐藏在数据集中的有意义的联系。因此在新版本，关联规则支持输出算法挖掘出的频繁项集以及对应的前项、后项。

功能简介

“模型系数”节点支持输出所有频繁项集，以及所有频繁项集的频率和支持度。

详情参考

关于FP-Growth算法，请参考数据挖掘-FP-Growth 。

^【数据挖掘】特征工程新增特征选择节点

背景介绍

Smartbi现有的特征选择方法有卡方特征选择和随机森林特征选择，针对不同的数据情况有更丰富的特征选择方法及可对比性，新版本新增GBDT特征选择节点。它的优势在于泛化能力强、模型输出后便于选择特征等。

功能简介

GBDT是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。新版本，左侧资源树特征过程节点下新增GBDT特征选择节点。

输出特征选择后的特征及其重要程度，以柱图展示如下：

详情参考

详情参考 V9数据挖掘-GBDT特征选择【Beta版本功能】。

^

【数据挖掘】LDA节点支持自动调整最优主题数

背景介绍

在对文本的主题特征进行研究时，我们往往要指定LDA生成的主题的数目，而主题数量需要根据具体任务的不同进行调整，可以通过评估不同主题数模型的困惑度来选择最优的模型主题数。新版本，LDA节点支持使用困惑度来自动调整最优主题数，提升了聚类的效果，使操作更简易有效。

功能简介

新版本，LDA节点支持自动调整最优主题数，用户可以通过计算困惑度来选择最优的主题数目。

^【数据挖掘】支持在界面上传自定义Python节点包

背景介绍

以前的版本，用户想要自定义Python功能节点需要在服务器指定的路径上传对应文件，操作比较繁琐。从提升用户体验感角度出发，产品整合了数据挖掘相关的配置并支持上传自定义Python节点包，用户可以在界面直接上传编写好的Python节点包，提高产品易用性。

功能简介

在 系统运维 > 数据挖掘配置 中，用户可以上传自定义Python节点包来添加Python节点（按照模板格式编写）。

示例：使用上传的自定义Python节点。

详情参考

关于数据挖掘配置，详情请参考数据挖掘配置。

^【数据挖掘】分词节点新增自定义全局词典和分词算法

背景介绍

以前的版本，分词节点只在局部生效，无法同时满足用户多个节点的分词需求且效率较低。新版本，新增自定义全局词典功能，用户上传自定义的分词可在全局使用，并新增了多个分词算法，可快速进行分词，提升分词效率，满足对分词效果要求高的各种场景。

功能简介

1、分词节点新增“启用全局词典”设置项，可使用全局词典中的词辅助进行分词。

分词节点新增上传文件的方式上传自定义词典。

2、分词节点新增“分词算法”，可选择Ansj、Hanlp算法。

详情参考

关于全局词典和分词算法，详情请参考数据挖掘-分词。

<【数据挖掘】修改内置案例并添加备注说明

背景介绍

在数据挖掘中，我们根据用户不同的需求，内置了一些功能演示和实际项目应用的案例，但在这些案例中的各节点之间关系比较为复杂，用户不易理解每个步骤的含义和使用。因此我们修改了一部分案例，并将现有的内置案例都添加了备注说明，解释了案例中不同步骤的概念及作用，便于用户对案例的交流和使用。

功能简介

1、对产品中现有的案例通过备注功能，对不同的步骤都添加了备注说明：

2、新增了4个数据挖掘的案例：银行客户精准营销、银行信用评分卡分析、疫情期间网民情绪识别、二手车交易价格预测。

3、修改已有的内置案例：

抽取、变换、过滤、评估节点更新替换；
增加或修改新的数据探索、处理、建模等过程步骤。

4、删除示例数据源节点的“数据源编码”设置项。

<【自助ETL/数据挖掘】关系目标源拆分为追加、覆盖、插入或更新数据节点

背景介绍

以前的版本，用户在数据挖掘和自助ETL中，只能通过追加的方式导出处理和分析后的数据，方式单一。为了满足用户需求，新版本在自助ETL和数据挖掘中，可以使用追加、覆盖、插入或更新的方式导出数据，以便用户能够针对不同的情况选择不同的方式插入数据。

功能简介

在自助ETL和数据挖掘中，关系目标源分为关系目标表（追加）、关系目标表（覆盖）、关系目标表（插入或更新），用户可以通过这三种方式将数据导出到目标库中。

注意事项

关系目标表（插入或更新）节点目前只支持ClickHouse数据库（19.4.2.7版本及以上）。

详情参考

关于关系目标表的导出功能，详情请参考目标源。

^【自助ETL/数据挖掘】关系目标表节点支持更多数据库

背景介绍

随着数据挖掘技术的迅速发展，用户对于不同种类的数据库的需求也在不断的增加。为了满足用户的需求，新版本三个关系目标表节点支持更多的数据库，丰富了数据导出的方式。

功能简介

1、关系目标表（插入或更新）节点支持更多数据库，包括：MySQL、Infobright、msSQL、Oracle、DB2、星环数据库。

2、关系目标表（追加）和关系目标表（覆盖）节点支持星环数据库。

<【数据挖掘】特征工程拆分归一化算法为独立节点

背景介绍

数据预处理在众多机器学习算法中都起着重要作用，实际情况中，将数据做归一化处理，消除量纲可以加速优化过程，使模型更好、更快的达到收敛。而在此之前Smartbi的归一化算法是封在其他算法当中，因此为了满足灵活性的需要，新版本将归一化算法拆分为独立节点。

功能简介

Smartbi的归一化算法有四种，分别为：正则化、标准化、最小最大值归一化、最大绝对值归一化。

详情参考

关于归一化节点功能，详情参考数据挖掘-归一化。

<【数据挖掘】支持多选节点并拖拽移动

功能简介

在数据挖掘中，框选选中多个节点后可一并拖拽移动。

注意事项

缩放状态下不支持框选功能。

关注我们

服务支持

页面树结构

Smartbi V10-数据挖掘

+【数据挖掘/自助ETL】目标源支持GreenPlum数据库

+【数据挖掘】新增SMOTE数据预处理方式

+【数据挖掘】评分卡分析新增PSI评估节点

+【数据挖掘】新增聚类评估节点，用于呈现聚类算法常见评价指标值

+【数据挖掘】新增AutoML向导，能够快速创建挖掘实验

+【数据挖掘】机器学习新增关联规则生成节点

^【数据挖掘】引擎调度机制执行粒度细化至单个节点

^【数据挖掘】增加节点复制和备注功能

+【数据挖掘】新增Kafka数据源节点

+【数据挖掘】数据预处理增加下采样节点

+【数据挖掘】数据预处理新增异常值处理节点

+【数据挖掘】统计分析增加RFM节点

+【数据挖掘】评分卡分析新增WOE编码节点

+【数据挖掘】文本分析增加词向量节点

+【数据挖掘】文本分析增加LDA和主题-词分布（LDA）节点

+【数据挖掘】多分类算法新增多层感知机节点

+【数据挖掘】数据集新增新建、编辑数据集入口

+【数据挖掘】查看输出支持预览数据导出到本地

+【自助ETL/数据挖掘】数据预处理新增值替换节点

+【自助ETL/数据挖掘】数据源新增Excel文件、读取Excel sheet节点

+【数据挖掘】统计分析支持高维数据可视化节点

^【数据挖掘】Python算法节点功能强化

^【数据挖掘】数据集节点支持所有的Smartbi数据集

^【自助ETL/数据挖掘】关系数据源支持参数设置

^【数据挖掘】关系目标表（追加）节点支持回退功能

^【自助ETL/数据挖掘】关系数据源支持设置分区字段

^【数据挖掘】节点输出字段支持排序

^【数据挖掘】元数据编辑支持修改原字段名和排列字段顺序

^【数据挖掘】派生列、聚合、全表统计节点新增多个函数

^【数据挖掘】关联规则支持输出频繁项集及其支持度

^【数据挖掘】特征工程新增特征选择节点

^

【数据挖掘】LDA节点支持自动调整最优主题数

^【数据挖掘】支持在界面上传自定义Python节点包

^【数据挖掘】分词节点新增自定义全局词典和分词算法

<【数据挖掘】修改内置案例并添加备注说明

<【自助ETL/数据挖掘】关系目标源拆分为追加、覆盖、插入或更新数据节点

^【自助ETL/数据挖掘】关系目标表节点支持更多数据库

<【数据挖掘】特征工程拆分归一化算法为独立节点

<【数据挖掘】支持多选节点并拖拽移动