页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

注意:(V10版本于2021年4月份发布,新特性列表中:新特性列表中:+表示新增;^表示增强)

目录

具体改进点如下:

新增增强变更

+【数据挖掘】新增自助机器学习,能够快速创建挖掘实验

+【数据挖掘】新增Kafka数据源节点

+【自助ETL/数据挖掘】数据源新增Excel文件

+【数据挖掘】数据集新增新建、编辑数据集入口+【自助ETL/数据挖掘】目标源支持GreenPlum数据库

+【数据挖掘】数据预处理增加下采样节点

+【数据挖掘】新增SMOTE数据预处理方式

+【自助ETL/数据挖掘】数据预处理新增值替换节点

+【数据挖掘】数据预处理新增异常值处理节点+【数据挖掘】特征工程新增GBDT特征选择节点

+【数据挖掘】统计分析支持高维数据可视化+【数据挖掘】统计分析增加RFM节点

+【数据挖掘】评分卡分析新增PSI评估节点

+【数据挖掘】评分卡分析新增WOE编码节点+【数据挖掘】文本分析增加词向量节点

+【数据挖掘】文本分析增加主题分析功能

+【数据挖掘】多分类算法新增多层感知机节点

+【数据挖掘】新增聚类评估节点,用于呈现聚类算法常见评价指标值+【数据挖掘】机器学习新增关联规则生成节点,用于呈现关联规则常见指标


^【自助ETL/数据挖掘】关系数据源支持参数设置

^【自助ETL/数据挖掘】关系数据源支持分区设置,提升数据抽取效率

^【数据挖掘】数据集节点支持所有的Smartbi数据集

^【自助ETL/数据挖掘】关系目标表节点支持更多数据库

^【数据挖掘】关系目标表(追加)节点追加数据前支持删除表中数据

^【自助ETL/数据挖掘】元数据编辑支持修改原字段名及顺序

^【数据挖掘】派生列、聚合、全表统计节点新增多个函数

^【数据挖掘】分词节点新增自定义全局词典和分词算法

^【数据挖掘】支持在界面上上传自定义Python节点^【数据挖掘】完善Python算法节点功能

^【数据挖掘】Python算法节点功能

^【数据挖掘】引擎调度机制执行粒度细化至单个节点

^【数据挖掘】查看输出支持预览数据导出到本地^【数据挖掘】查看输出支持预览数据导出到本地

^【自助ETL/数据挖掘】查看输出增加列筛选项

^【数据挖掘】节点输出字段支持排序

^【数据挖掘】增强整个页面的操作

^【自助ETL/数据挖掘】支持缓存节点数据,减少执行实验等待时间

^【自助ETL/数据挖掘】支持多节点分组收缩和展开

<【自助ETL/数据挖掘】关系目标源拆分为追加、覆盖、插入或更新数据节点

<【数据挖掘】特征工程拆分归一化算法为独立节点

<【数据挖掘】修改内置案例并添加备注说明<【数据挖掘】拆分归一化算法为多个节点


V10_

数据挖掘5

数据挖掘_新增自助机器学习,能够快速创建挖掘实验
V10_数据挖掘_

数据挖掘5

新增自助机器学习,能够快速创建挖掘实验



+数据挖掘】新增自助机器学习,能够快速创建挖掘实验


背景介绍

随着数据挖掘在各种领域不断被应用,越来越多的人开始使用机器学习,而使用机器学习不仅需要用户具备一定专业知识,还需要花费大量的精力来进行算法与模型的选择。为了进一步降低用户的使用门槛,我们在数据挖掘中,支持使用自助机器学习功能快速创建数据挖掘实验,能够自动化的完成更多的工作,也能让没有太多专业知识的人也能使用机器学习。

功能简介

新建回归、分类或聚类实验时,只需配置数据源、算法、特征的设置项,系统可快速自动生成实验。

参考文档

关于AutoML的功能,详情请参考 数据挖掘-自助机器学习 。自助机器学习 

V10_数据挖掘_

数据挖掘9

新增Kafka数据源节点
V10_数据挖掘_

数据挖掘9

新增Kafka数据源节点



+【数据挖掘】新增Kafka数据源节点


背景介绍

Kafka是一种高吞吐量的分布式发布订阅消息系统,经常用于实时流数据架构,提供实时分析。它具有高吞吐量、低延迟,每秒可以处理几万条消息,延迟最低只有几毫秒,以及可扩展性、持久性、可靠性、容错性、高并发等优点。因此,Smartbi在V10版本新增了Kafka数据源。

功能简介

Kafka作为数据源一般用来缓存数据,然后由Storm消费Kafka中的数据进行实时处理,有以下三种使用场景:

  • 准实时的数据处理:通过任务调度,持续消费Kafka中的数据,提供给一系列数据处理节点进行处理,处理后的结果可以输出到目标数据库;
  • 模型自学习:通过任务调度,持续消费Kafka中的数据进行模型自学习;
  • 模型批量预测:通过任务调度,定时消费Kafka中的数据进行批量预测。

新增的Kafka数据源如图:

详情参考

关于Kafka数据源,详情请参考  数据挖掘-数据的输入和输出

V10_数据挖掘_

数据挖掘20

数据源新增Excel文件
V10_数据挖掘_

数据挖掘20

数据源新增Excel文件



+【自助ETL/数据挖掘】数据源新增Excel文件


背景介绍

在实际应用中,不同的用户有着不同的数据导入需求,有的用户想要通过导入Excel数据文件的方式修改表结构等。为了满足用户需求,V10版本我们在自助ETL和数据挖掘中,新增Excel文件数据源,可通过上传Excel文件的方式导入数据,丰富了数据来源。

功能简介

V10版本,在自助ETL和数据挖掘的数据源节点中,新增Excel文件、读取Excel文件sheet文件节点,可通过上传Excel文件的方式导入需要的数据。

Image RemovedImage Added

详情参考

关于Excel文件节点、读取Excel文件sheet文件节点功能,详情请参考 Excel文件数据源 。

V10_

数据挖掘17V10_数据挖掘17

+【数据挖掘】数据集新增新建、编辑数据集入口

背景介绍

旧版本Smartbi的挖掘模块中,数据集节点只有选择数据集功能,为了方便用户可以在挖掘的实验界面中新建和编辑数据集,V10版本新增了新建、编辑数据集的入口。

功能简介

V10版本在数据集节点的参数设置界面新增了新建、编辑数据集的入口。

Image Removed

详情参考

关于数据源的数据集,详情请参考 数据集

V10_数据挖掘1V10_数据挖掘1

数据挖掘_目标源支持GreenPlum数据库
V10_数据挖掘_目标源支持GreenPlum数据库



+【自助ETL/数据挖掘】目标源支持GreenPlum数据库


背景介绍

随着数据的爆炸性增长,用户对存储数据量的需求不断增加,产品在数据挖掘和自助ETL中,关系目标表(追加)和关系目标表(覆盖)节点支持使用GreenPlum数据库。

GreenPlum是一个面向数据仓库应用的关系型数据库,因为有良好的体系结构,所以在数据存储、高并发、高可用、线性扩展、反应速度、易用性和性价比等方面都有非常明显的优势,同时配置简单,因此深受用户的欢迎。

功能简介

在数据挖掘和自助ETL中,关系目标表(追加)和关系目标表(覆盖)节点支持GreenPlum数据库。

注意事项

关系目标表(插入或更新)节点,V10版本暂时不支持GreenPlum数据库。

V10_数据挖掘_

数据挖掘10

数据预处理增加下采样节点
V10_数据挖掘_

数据挖掘10

数据预处理增加下采样节点



+【数据挖掘数据预处理增加下采样节点


背景介绍

在数据挖掘过程中,原始数据的不均匀分布会影响到数据特征抽取或模型学习数据特征的效果,出现错判的情况。V10版本新增下采样节点,可对原始数据进行初步加工,对出现频次较高的数据按照一定规则抽取一定数据使得整体分布均匀。

功能简介

新增下采样节点,可通过移除数据量较多类别的部分数据,使样本达到均衡。

参考文档

关于数据挖掘的下采样节点,详情请参考  数据挖掘-采样 。

V10_数据挖掘_

数据挖掘2

新增SMOTE数据预处理方式
V10_数据挖掘_

数据挖掘2

新增SMOTE数据预处理方式



+【数据挖掘新增SMOTE数据预处理方式


背景介绍

平时很多分类问题都会面对样本不均衡的问题,很多算法在这种情况下分类效果都不够理想。而SMOTE作为合成少数类过采样技术,是基于随机过采样算法的一种改进方案,可以用来解决类别不平衡问题。因此V10版本新增SMOTE节点,能够对少数类样本进行分析,并根据少数类样本人工合成新样本添加到数据集中。

功能简介

V10版本新增SMOTE节点,通过增加少数类样本的数量,使样本达到均衡。

参考文档

关于SMOTE节点,详情请参考 数据挖掘-SMOTE 。

V10_数据挖掘_

数据挖掘19

数据预处理新增值替换节点
V10_数据挖掘_

数据挖掘19

数据预处理新增值替换节点



+自助ETL/数据挖掘】数据预处理新增值替换节点


背景介绍

V10版本,在自助ETL和数据挖掘中新增值替换节点,可以对指定的数据进行替换,可以帮助用户替换掉数据中一些缺失、无效、错误的值。

功能简介 

V10版本,在自助ETL和数据挖掘中新增值替换节点,可以对指定列进行值、字符串、正则替换。

参考文档

详情参考

V10_数据挖掘11V10_数据挖掘11

+【数据挖掘】数据预处理新增异常值处理节点

背景介绍

无论是机器学习还是数据分析,总是要面对一大堆数据,总是免不了出现异常值的可能性,,异常值可以大幅度地改变数据分析和统计建模的结果,可能会造成回归、方差分析等统计模型假设的基本假设受影响等问题。

功能简介

V10版本新增异常值处理节点,可对存在异常的数据进行检测和识别,且对识别出的异常值进行处理。

Image Removed

详情参考

关于数据挖掘的异常值处理,详情请参考  数据挖掘-异常值处理 关于值替换功能,详情参考 数据挖掘-值替换

V10_数据挖掘_

数据挖掘30

特征工程新增GBDT特征选择节点
V10_数据挖掘_

数据挖掘30

特征工程新增GBDT特征选择节点



+【数据挖掘】特征工程新增GBDT特征选择节点


背景介绍

Smartbi现有的特征选择方法有卡方特征选择和随机森林特征选择,针对不同的数据情况有更丰富的特征选择方法及可对比性,V10版本新增GBDT特征选择节点。它的优势在于泛化能力强、模型输出后便于选择特征等。

功能简介

GBDT是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。V10版本,左侧资源树特征过程节点下新增GBDT特征选择节点。

输出特征选择后的特征及其重要程度,以柱图展示如下:


详情参考

关于GBDT特征选择功能,详情参考 数据挖掘-GBDT特征选择

V10_数据挖掘_

数据挖掘31

统计分析支持高维数据可视化
V10_数据挖掘_

数据挖掘31

统计分析支持高维数据可视化



+【数据挖掘】统计分析支持高维数据可视化


背景介绍

高维数据是指具有多个属性的数据,它在我们日常生活中十分常见,比如各种类型的多媒体数据、文档词频数据等等。面对这些高维数据,我们该如何展示各种属性之间的联系和发现它们之间的规律。其实在过去的数十年里,可视化领域已经产生了大量优秀的技术,如散点图矩阵、平行坐标图等,以帮助用户分析这类数据。

功能简介

V10版本新增高维数据可视化节点,支持通过矩阵图和平行坐标图对高维数据进行可视化分析。

矩阵图效果:

平行坐标图效果:

详情参考

关于数据挖掘的高维数据可视化功能,详情请参考 数据挖掘-高维数据可视化 。

V10_

数据挖掘12

数据挖掘_评分卡分析新增PSI评估节点
V10_

数据挖掘12

+【数据挖掘】统计分析增加RFM节点

背景介绍

RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。因此Smartbi在V10版本新增RFM节点,为更多的营销决策提供支持。  

功能简介

RFM节点通过对选择的特征列按照阈值进行二分(可按均值、指定值、中值),将客户数据划分为不同的客群。如下图,左侧资源树统计分析节点下新增RFM节点。

Image Removed

详情参考

关于RFM功能,详情参考 

数据挖掘

-RFM 。 V10_数据挖掘3V10_数据挖掘3

_评分卡分析新增PSI评估节点



+【数据挖掘】评分卡分析新增PSI评估节点


背景介绍

在评分卡分析中,我们经常用到评分信用评级的分箱、数据转换模块、评分卡训练、评分卡预测等功能。支持评分卡模型应用后,还需对模型效果做评估,因此V10版本新增评分卡模型的PSI评估,用于对离散特征稳定性进行评估。

功能简介

V10版本新增PSI评估节点,用于对评分值的稳定性进行评估。

详情参考

关于PSI评估节点,详情请参考 数据挖掘-PSI评估 。

V10_数据挖掘_

数据挖掘13

文本分析增加词向量节点
V10_

数据挖掘13

+【数据挖掘】评分卡分析新增WOE编码节点

背景介绍

评分卡是将模型变量WOE编码方式离散化之后运用Logistic回归模型进行的一种二分类变量的广义线性模型,也是信用风险评估和互联网金融领域常用的建模方法,比如信用卡风险评估、贷款发放等业务。除此之外,在其它领域也能够看到评分卡被用来作为分数评估,比如常见的客服质量打分、芝麻信用分打分等。

功能简介

WOE则是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理,之后再计算出WOE值和IV值,根据这两个值来判断变量的预测强度。

因此V10版本新增WOE编码节点,可以对字段分箱后计算WOE值和IV值。

Image Removed

在查看分析结果中记录了变量的IV值,分箱区间及每个区间的WOE值。

Image Removed

详情参考

关于WOE编码功能,详情请参考 

数据挖掘

-WOE编码 。 V10_数据挖掘14V10_数据挖掘14

_文本分析增加词向量节点



+【数据挖掘】文本分析增加词向量节点


背景介绍

在文本分析中,我们会先采用词频编码,根据词频信息进行简单主题聚类或文本分类。但是这种方法忽略了词序信息,也无法判断出两个词语之间的关系。而Word2vec词向量可以很好地解决这个问题,它的思路是通过训练,将每个词都映射到一个较短的词向量上来。所有的这些词向量就构成了向量空间,进而可以用普通的统计学的方法来研究词与词之间的关系。

功能简介

词向量节点作为文本处理常用的特征工程手段、在情感分析、语义分析上可以用来增加模型准确性、计算相似性等功能。V10版本,左侧资源树文本分析节点下新增词向量节点。

在查看输出结果可以看到每个文本对应的词向量:

详情参考

关于词向量节点的功能,详情参考 数据挖掘-词向量 。

V10_数据挖掘15

V10_

数据挖掘15

+【数据挖掘】文本分析增加主题分析功能

背景介绍

LDA可以用于从海量的文本中,根据统计模型,自动提取出由关键词组成的热门主题,让我们快速知道,这些大量无规则的文本中,主要讲述了什么内容。业务人员在商业分析的过程中也是离不开海量的文本数据,如果将基于LDA的主题分析应用在商业分析上,那么将会给业务人员带来极大的方便。

功能简介

LDA主题模型主要用来推测文档的主题分布,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。 V10版本,左侧资源树文本分析节点下新增LDA和主题-词分布(LDA)节点。

Image Removed

详情参考

关于LDA和主题-词分布(LDA)节点的功能,详情参考 LDA

数据挖掘

-主题-词分布(LDA)。 V10_数据挖掘16

_新增聚类评估节点,用于呈现聚类算法常见评价指标值
V10_

数据挖掘16

+【数据挖掘】多分类算法新增多层感知机节点

背景介绍

数据中潜藏的规律按照以往的聚类,回归等传统分析手段很难被发现,Smartbi Mining新增多层感知机算法节点。多层感知机(MLP,Multilayer Perceptron)也叫人工神经网络(ANN,Artificial Neural Network),通过神经网络中的节点和隐藏层对数据特征进行‘学习’,并以模型形式保存,用于分类、预测等使用场景。

功能简介

V10版本,多层感知机作为多分类算法节点与其他机器学习节点同样使用。

Image Removed

详情参考

关于数据挖掘的多层感知机,详情请参考 

数据挖掘

-多层感知机 。 V10_数据挖掘4V10_数据挖掘4

_新增聚类评估节点,用于呈现聚类算法常见评价指标值



+【数据挖掘】新增聚类评估节点,用于呈现聚类算法常见评价指标值


背景介绍

用户在做聚类时,往往无法直观的识别聚类结果的好坏,在数据质量不高的情况下,聚类的效果很不稳定,得出的结论也不容易让人信服。因此产品新增聚类评估节点,能够估计在数据集上进行聚类的可行性和被聚类方法产生的结果的质量,确保数据集聚类后的效果,使聚类结果更好的被应用到实际应用场景中。 

功能简介

增加聚类评估节点,可以估计在数据集上进行聚类的可行性和被聚类方法产生的结果的质量。

分析结果包括对聚类算法的评估指标(轮廓系数、和方差、CH指标)和样本量分布情况,如图:

详情参考

关于聚类评估节点,详情请参考 数据挖掘-聚类评估 。 数据挖掘-聚类评估 

V10_数据挖掘_

数据挖掘6

关系数据源支持参数设置
V10_

数据挖掘6

+【数据挖掘】机器学习新增关联规则生成节点,用于呈现关联规则常见指标

背景介绍
随着数据爆炸式增长,如何从海量数据中快速的挖掘出有用信息是当今社会亟待解决的问题。V10版本的新增关联规则生成节点,支持输出更多关联规则的指标(置信度、提升度等),同时能自由筛选出多对多、多对一等不同关联形式,以此帮助用户快速生成关联规则、衡量其中的关联性,从海量数据中挖掘出有价值的数据,助力企业做出科学决策。

功能简介
V10版本,数据挖掘中新增关联规则生成节点,用于呈现关联规则常见的一些指标。

Image Removed

基于 FP-Growth 训练后的模型输入后,关联规则生成节点能够输出:频繁项集、支持度、置信度和提升度等指标。其中输出的前、后项个数,可便于筛选一对一、一对多、多对一、多对多等形式的关联规则。

Image Removed

参考文档

关于关联规则功能,详情请参考 

数据挖掘

-关联规则生成 。 V10_数据挖掘23V10_数据挖掘23

_关系数据源支持参数设置



^【自助ETL/数据挖掘】关系数据源支持参数设置


背景介绍

以前的版本,用户想要在ETL或数据挖掘中使用参数切换数据,需要在执行之前人工干预数据流里的数据,操作繁琐也不够自动化。为了简化用户的操作,V10版本在自助ETL和数据挖掘模块中,关系数据源支持参数设置,用户可以通过改变参数查询条件值来改变数据,满足了用户不同的数据需求。

功能简介

在自助ETL和数据挖掘中,实验工具栏新增“参数设置”按钮,关系数据源新增SQL语句输入框,支持通过参数设置和在输入框中拼接SQL语句的方式来设置关系数据源的参数。

Image RemovedImage Added

参数设置页面如下:

Image RemovedImage Added

注意事项

在SQL输入框中,表达式的第一个字段使用的是表头真名。

详情参考

关于参数设置功能,详情请参考 数据挖掘-参数设置 。

V10_数据挖掘_

数据挖掘25

关系数据源支持分区设置,提升数据抽取效率
V10_数据挖掘_

数据挖掘25

关系数据源支持分区设置,提升数据抽取效率



^【自助ETL/数据挖掘关系数据源支持分区设置,提升数据抽取效率


背景介绍

数据抽取可以将源数据库的原始数据抽取到高速缓存库中,可以秒级获取大级别量的数据结果。为了进一步提升大数据量抽取性能,V10版本在自助ETL和数据挖掘中关系数据源支持分区读取数据,能够减轻系统压力,提升抽取效率。

功能简介

V10版本,关系数据源新增“分区设置”功能,可将数据分成几个区域后并行读取数据,提升数据抽取效率。

例如6KW的数据量提升抽取的效率如下:

Image Modified

注意事项

Presto数据库暂不支持分区设置功能。

#V10_数据挖掘22#V10_数据挖掘22

^【数据挖掘数据集节点支持所有的Smartbi数据集

背景介绍

为了方便用户的使用,我们在数据挖掘的数据源中新增数据集节点,支持所有的Smartbi数据集,用户可以使用已经建好的数据集进行数据挖掘,丰富了输入数据的来源,减少了用户操作。

功能简介

数据集节点支持所有Smartbi数据集:

Image Removed详情文档

关于关系数据源分区设置的功能,详情请参考 关系数据源 。

V10_数据挖掘_

数据挖掘37

关系目标表(追加)节点追加数据前支持删除表中数据
V10_

数据挖掘37^【自助ETL/

数据挖掘

关系目标表节点支持更多数据库(是否可以删除?)

背景介绍

随着数据挖掘技术的迅速发展,用户对于不同种类的数据库的需求也在不断的增加。为了满足用户的需求,V10版本三个关系目标表节点支持更多的数据库,丰富了数据导出的方式。

功能简介 

1、关系目标表(插入或更新)节点支持更多数据库,包括:MySQL、Infobright、msSQL、Oracle、DB2、星环数据库。

Image Removed

2、关系目标表(追加)和关系目标表(覆盖)节点支持星环数据库。

Image Removed

V10_数据挖掘24V10_数据挖掘24

_关系目标表(追加)节点追加数据前支持删除表中数据



^【数据挖掘】关系目标表(追加)节点追加数据前支持删除表中数据


功能简介

V10版本,关系目标表(追加)节点追加数据前支持删除表中的数据,在回退模式中选择“追加前删除数据”并编写删除SQL语句,可以先删除表中部分或全部的数据,再将新数据追加到目标表中。

应用场景:用户在进行ETL调度时,发现某天调度的数据有问题,需要进行重跑(把之前已经入库的数据删除再插入),可以使用此功能可以先把入库的数据删除,再将新数据追加到目标表中。 

注意事项

目前只有ClickHouse数据源(19.4.2.7版本及以上)支持此功能。

V10_数据挖掘_

数据挖掘27

元数据编辑支持修改原字段名及顺序
V10_数据挖掘_

数据挖掘27

元数据编辑支持修改原字段名及顺序



^【自助ETL/数据挖掘】元数据编辑支持修改原字段名及顺序


背景介绍

在实际场景中,Excel数据需要用到较多的数据处理操作,用户有修改元数据的原字段名和排序的一些需求。为了满足用户需求,V10版本元数据编辑节点支持修改原字段名及顺序,可以更全面地对数据进行处理,使数据更好地满足用户需求。

功能简介

在元数据编辑节点中,鼠标移动到名称列显示其原字段名,可修改数据的名称列。同时增加“操作”列,可对字段的顺序进行调整。

参考文档

关于元数据编辑的功能,详情请参考文档:数据挖掘-元数据编辑 。

V10_数据挖掘_

数据挖掘28

派生列、聚合、全表统计节点新增多个函数
V10_数据挖掘_

数据挖掘28

派生列、聚合、全表统计节点新增多个函数



^数据挖掘派生列、聚合、全表统计节点新增多个函数


背景介绍

V10版本,派生列、聚合、全表统计节点新增多个函数,用于满足用户更多的需求,提升工作效率。

功能简介 

1、派生列节点增加行最小值、行最大值函数。

2、聚合节点增加Collect_set 、方差、标准差、中位数等函数。

3、全表统计节点增加计算众数的方法。

参考文档

关于这些节点新增的函数功能,详情请参考文档:数据挖掘-派生列数据挖掘-聚合数据挖掘-全表统计 。

V10_数据挖掘_

数据挖掘34

分词节点新增自定义全局词典和分词算法
V10_数据挖掘_

数据挖掘34

分词节点新增自定义全局词典和分词算法



^【数据挖掘】分词节点新增自定义全局词典和分词算法


背景介绍

以前的版本,分词节点只在局部生效,无法同时满足用户多个节点的分词需求且效率较低。V10版本,新增自定义全局词典功能,用户上传自定义的分词可在全局使用,并新增了多个分词算法,可快速进行分词,提升分词效率,满足对分词效果要求高的各种场景。

功能简介

1、分词节点新增“启用全局词典”设置项,可使用全局词典中的词辅助进行分词。

分词节点新增上传文件的方式上传自定义词典。

2、分词节点新增“分词算法”,可选择Ansj、Hanlp算法。

详情参考

关于全局词典和分词算法,详情请参考 数据挖掘-分词 。

V10_

数据挖掘33V10_数据挖掘33

^【数据挖掘支持在界面上上传自定义Python节点

背景介绍

以前的版本,用户想要在产品中添加自定义的Python节点,需要在服务器上找到对应的路径再上传自定义Python节点包,操作繁琐。从提升用户体验感角度出发,产品支持在界面上上传自定义Python节点包,并且整合了系统中所有关于数据挖掘的配置项,提高了产品易用性。

功能简介

1、系统运维新增“数据挖掘配置”,用于将所有数据挖掘的相关配置统一管理。

Image Removed

2、用户可以在“数据挖掘配置”界面上,通过上传自定义Python节点包(按照模板格式编写)来添加自定义Python节点。

Image Removed

并可对已上传的自定义节点进行管理:

Image Removed

上传成功后刷新界面,上传的自定义节点会出现在节点资源树的自定义模块目录下(一次只能上传一个节点):

Image Removed

详情参考

关于数据挖掘配置,详情请参考 数据挖掘配置 。

V10_数据挖掘21V10_数据挖掘21^【数据挖掘

数据挖掘_完善Python算法节点功能
V10_数据挖掘_完善Python算法节点功能



^【数据挖掘】完善Python算法节点功能


功能简介

V10版本,Python算法节点支持模型训练、模型保存、模型预测、模型评估、服务等。V10版本,我们完善了上传的Python算法节点功能,能够在产品中进行模型训练、模型保存、模型预测、模型评估、服务等。

示例1:上传的Python算法节点支持模型预测、评估。示例1:上传的Python算法节点进行模型预测、评估。

示例2:上传的Python算法节点支持部署服务。示例2:上传的Python算法节点进行部署服务。

V10_数据挖掘_

数据挖掘7

查看输出支持预览数据导出到本地
V10_

数据挖掘7

数据挖掘_查看输出支持预览数据导出到本地

^【数据挖掘】引擎调度机制执行粒度细化至单个节点



^【数据挖掘】查看输出支持预览数据导出到本地


背景介绍

旧版本的引擎调度策略是把实验作为整体进行调度,实验中的节点无法脱离出来独立执行。若引擎能够按照节点粒度进行调度,这样会给引擎在功能和扩展性方面带来好处。在挖掘实验过程中,对每一个执行完的节点资源我们都可以预览该节点的数据,如果可以将预览数据导出到本地,这将便于用户进行后续的处理或分析。

功能简介

V10版本,引擎按照节点粒度进行调度,可以带来以下几点优势:V10版本支持预览数据导出到本地,在查看输出窗口新增“下载预览数据”选项。

可以做到断点续跑,如果在数据量大的情况下,会节省很大时间,提高实验的效率;

Image Added

能单独执行一个节点,在实验的设计跟调式阶段带来很大便利;

注意事项

  • 可以对单节点进行资源控制,防止某个节点占用资源太大,对其它节点造成影响;
  • 调度更加灵活,同个实验中的不同节点,可以在不同机器中执行;
  • 部署架构扩张性更好,可以横向扩张节点的执行机器。
  • 具体在 Smartbi上体现为节点的右键菜单增加“执行该节点”和“从当前节点开始执行”功能项。

    Image Removed

    详情参考

    关于“执行该节点”和“从当前节点开始执行”功能项,详情请参考 实验界面介绍 。

    此处会把预览的数据以csv文件的方式下载到本地,不会下载全量数据,数据量最多100条。

    V10_数据挖掘_

    数据挖掘18

    查看输出增加列筛选项
    V10_数据挖掘_

    数据挖掘18

    查看输出增加列筛选项

    ^【数据挖掘】查看输出支持预览数据导出到本地



    ^【自助ETL/数据挖掘】查看输出增加列筛选项


    背景介绍

    在挖掘实验过程中,对每一个执行完的节点资源我们都可以预览该节点的数据,如果可以将预览数据导出到本地,这将便于用户进行后续的处理或分析。在自助ETL或数据挖掘实验中,对每一个执行完的节点查看输出数据时,能显示的数据量有限;V10版本中,增加对字段进行列筛选过滤的功能,方便用户查验数据。

    功能简介

    V10版本支持预览数据导出到本地,在查看输出窗口新增“下载预览数据”选项。在节点“查看输出”页面新增列筛选功能,对输出数据进行筛选,方便用户查看。

    Image RemovedImage Added注意事项

    注意
    此处会把预览的数据以csv文件的方式下载到本地,不会下载全量数据,数据量最多100条。

    对于列筛选后的数据仅限于查看,下载预览数据仍是对筛选前的数据进行下载。

    V10_数据挖掘_

    数据挖掘26

    节点输出字段支持排序
    V10_数据挖掘_

    数据挖掘26

    节点输出字段支持排序



    ^数据挖掘节点输出字段支持排序


    功能简介

    V10版本,节点输出字段的顺序按照选择字段的先后顺序排序。

    输出的字段顺序如图:

    注意事项

    1、WOE编码、异常值处理节点不支持排序。

    2、有些没有数据输出的节点,在节点设置时会显示选择节点的顺序,但输出时仍按照原始顺序排序,如特特征选择节点。

    V10_数据挖掘_

    数据挖掘8

    增强整个页面的操作
    V10_数据挖掘_

    数据挖掘8

    增强整个页面的操作



    ^【数据挖掘】增强整个页面的操作


    背景介绍

    机器学习实验往往牵涉多个节点,各节点之间关系也较为复杂,更或者自定义的算法节点只有实验构建者才明白其中的含义;同时在实验构建过程中,可能出现节点复用的情况。因此在V10版本中,在实验和节点增加备注功能、节点增加复制功能,便于实验的交流和提高实验的构建速度。

    功能简介

    在画布空白处单击右键,选择“添加备注”,会弹出富文本编辑框,可以添加对实验背景的介绍等内容。

    选中需要复制的节点,单击右键,出现‘复制’,也可以同时选中多个节点:

    • 拖动鼠标覆盖需要选择的节点,箭头滑过的矩形区域的节点都被选中(缩放状态下不支持框选),选中后可一起拖拽移动
    • 按住Crtrl键,鼠标逐个单击需要复制的节点,选中后可一起拖拽移动。

    详情参考

    关于节点的备注和复制功能,详情请参考  数据挖掘-实验界面介绍 。 

    V10_数据挖掘_

    缓存节点数据

    支持缓存节点数据,减少执行实验等待时间
    V10_数据挖掘_

    缓存节点数据

    支持缓存节点数据,减少执行实验等待时间



    ^自助ETL/数据挖掘支持缓存节点数据,减少执行实验等待时间

    背景介绍

    V9.7版本,数据挖掘实验支持缓存执行过的节点数据,不需要每次都执行一遍全部的节点,减少等待时间,提高工作效率。


    功能简介 

    V10版本,数据挖掘新增“缓存节点数据”设置项(安装部署过Hadoop才生效),支持缓存执行过的节点的数据,下一次执行可直接执行当前配置好及其之后的节点,减少等待时间,提高工作效率。

    Image Added

    参考文档

    关于缓存节点数据功能,详情请参考 缓存节点数据 。

    V10_数据挖掘_支持多节点分组收缩和展开
    V10_数据挖掘_支持多节点分组收缩和展开



    ^【自助ETL/数据挖掘】支持多节点分组收缩和展开


    功能简介 

    V10版本,数据挖掘新增“缓存节点数据”设置项(安装部署过Hadoop才生效),能够缓存执行过的节点的数据,下一次可以直接执行刚配置好的节点。在自助ETL和数据挖掘实验中,支持选择多个节点合并为一组,以便节点较多的实验归类和移动节点。

    适用场景:适用于简单的挖掘实验、正在测试环境上设计的挖掘实验。Image Added

    Image Removed同组的节点可收缩或展开:

    参考文档

    关于缓存节点数据功能,详情请参考Image Added

    V10_数据挖掘_

    数据挖掘36

    关系目标源拆分为追加、覆盖、插入或更新数据节点
    V10_数据挖掘_

    数据挖掘36

    关系目标源拆分为追加、覆盖、插入或更新数据节点



    <【自助ETL/数据挖掘】关系目标源拆分为追加、覆盖、插入或更新数据节点


    背景介绍

    以前的版本,用户在数据挖掘和自助ETL中,只能通过追加的方式导出处理和分析后的数据,方式单一。为了满足用户需求,V10版本在自助ETL和数据挖掘中,可以使用追加、覆盖、插入或更新的方式导出数据,以便用户能够针对不同的情况选择不同的方式插入数据。

    功能简介

    在自助ETL和数据挖掘中,关系目标源分为关系目标表(追加)、关系目标表(覆盖)、关系目标表(插入或更新),用户可以通过这三种方式将数据导出到目标库中。

    注意事项

    关系目标表(插入或更新)节点目前只支持ClickHouse数据库(19.4.2.7版本及以上)。

    详情参考

    关于关系目标表的导出功能,详情请参考 目标源 

    V10_数据挖掘_

    数据挖掘38

    拆分归一化算法为多个节点
    V10_数据挖掘_

    数据挖掘38

    拆分归一化算法为多个节点



    <【数据挖掘】

    特征工程拆分归一化算法为独立节点

    拆分归一化算法为多个节点


    背景介绍

    数据预处理在众多机器学习算法中都起着重要作用,实际情况中,将数据做归一化处理,消除量纲可以加速优化过程,使模型更好、更快的达到收敛。而在此之前Smartbi的归一化算法是封在其他算法当中,因此为了满足灵活性的需要,V10版本将归一化算法拆分为独立节点。数据预处理在众多机器学习算法中都起着重要作用,实际情况中,将数据做归一化处理,消除量纲可以加速优化过程,使模型更好、更快的达到收敛。而在此之前Smartbi的归一化算法是封在其他算法当中,因此为了满足灵活性的需要,V10版本拆分归一化算法为多个节点。

    功能简介

    Smartbi的归一化算法有四种,分别为:正则化、标准化、最小最大值归一化、最大绝对值归一化。

    Image RemovedImage Added

    详情参考

    关于归一化节点功能,详情参考 数据挖掘-归一化 

    V10_数据挖掘35V10_数据挖掘35

    <【数据挖掘】修改内置案例并添加备注说明(可以删除?)

    背景介绍

    在数据挖掘中,我们根据用户不同的需求,内置了一些功能演示和实际项目应用的案例,但在这些案例中的各节点之间关系比较为复杂,用户不易理解每个步骤的含义和使用。因此我们修改了一部分案例,并将现有的内置案例都添加了备注说明,解释了案例中不同步骤的概念及作用,便于用户对案例的交流和使用。

    功能简介

    1、对产品中现有的案例通过备注功能,对不同的步骤都添加了备注说明:

    Image Removed

    2、新增了4个数据挖掘的案例:银行客户精准营销、银行信用评分卡分析、疫情期间网民情绪识别、二手车交易价格预测。

    Image Removed

    3、修改已有的内置案例:

    • 抽取、变换、过滤、评估节点更新替换;
    • 增加或修改新的数据探索、处理、建模等过程步骤。

    4、删除示例数据源节点的“数据源编码”设置项。

    Image Removed