页面树结构
转至元数据结尾
转至元数据起始

正在查看旧版本。 查看 当前版本.

与当前比较 查看页面历史

« 前一个 版本 2 下一个 »


+【数据挖掘/自助ETL】关系目标源支持GreenPlum数据库


背景介绍

随着数据的爆炸性增长,用户对存储数据量的需求不断增加,产品在数据挖掘和自助ETL中,关系目标源支持使用Greenplum数据库。

Greenplum是一个面向数据仓库应用的关系型数据库,因为有良好的体系结构,所以在数据存储、高并发、高可用、线性扩展、反应速度、易用性和性价比等方面都有非常明显的优势,同时配置简单,因此深受用户的欢迎。

功能简介

在数据挖掘和自助ETL中,目标数据源支持GreenPlum数据库。


+【数据挖掘新增SMOTE算法节点


背景介绍

在数据挖掘中,经常会遇到正负样本数据分布比例不平衡的情况,导致学习结果会偏向于样本较多的一类,影响机器学习的效果。我们可以使用SMOTE算法,即合成少数类过采样技术,人工生成一部分数据出来,使样本达到均衡。

功能简介

新增SMOTE算法节点,可以解决样本数据分布比例不均衡的问题。

详情参考

关于SMOTE算法节点,详情请参考 数据挖掘-SMOTE 。


+【评分卡分析】新增PSI评估节点


背景介绍

在评分卡分析中,我们经常用到评分信用评级的分箱、数据转换模块、评分卡训练、评分卡预测等功能。支持评分卡模型应用后,还需对模型效果做评估,因此新版本新增评分卡模型的PSI评估,用于对离散特征稳定性进行评估。

功能简介

新版本新增PSI评估节点,用于对评分值的稳定性进行评估。

详情参考

关于PSI评估节点,详情请参考 数据挖掘-PSI评估 。


+【数据挖掘支持在界面上传自定义Python节点包


背景介绍

以前的版本,用户想要自定义Python功能节点需要在服务器指定的路径上传对应文件,操作比较繁琐。从提升用户体验感角度出发,产品整合了数据挖掘相关的配置并支持上传自定义Python节点包,用户可以在界面上直接上传封装好的Python节点包,提高了产品的灵活性和开放性。

功能简介

1、在系统运维新增“数据挖掘配置”选项卡,将数据挖掘相关配置进行统一管理。

2、在数据挖掘配置中,用户可以上传自定义Python节点包来添加Python节点。

示例:使用上传的自定义Python节点。

注意事项

自定义Python节点包的代码需要按照模板格式进行编写:

详情参考

关于数据挖掘配置,详情请参考 数据挖掘配置 。


+【数据挖掘】新增聚类评估节点


背景介绍

用户在做聚类时,往往无法直观的识别聚类结果的好坏,在数据质量不高的情况下,聚类的效果很不稳定,得出的结论也不容易让人信服。因此产品新增聚类评估节点,能够估计在数据集上进行聚类的可行性和被聚类方法产生的结果的质量,确保数据集聚类后的效果,使聚类结果更好的被应用到实际应用场景中。 

功能简介

增加聚类评估节点,可以估计在数据集上进行聚类的可行性和被聚类方法产生的结果的质量。

分析结果包括对聚类算法的评估指标(轮廓系数、和方差、CH指标)和样本量分布情况,如图:

详情参考

关于聚类评估节点,详情请参考 数据挖掘-聚类评估 。


+【数据挖掘】新增分词算法和全局词典


背景介绍

以前的版本,分词节点只存在局部词典,无法同时满足多个节点的分词需求,因此产品新增了多个分词算法,可将一个汉字或英文序列切分成一个一个单独的词,更加准确、快速,适用于对分词效果要求高的各种场景;同时新增全局词典设置项,所有的用户都能使用设置的分词词典。

功能简介

1、新增多个分词算法:Ansj、Hanlp;

2、全局词典:

 系统运维>数据挖掘配置 中,新增全局词典文件地址,用于指定全局词典的文件路径。

分词节点新增“启用全局词典”设置项:

3、自定义词典支持手动输入、文件上传,且上传的文件不超过一万行。

详情参考

关于分词算法和全局词典,详情请参考 数据挖掘-分词 。



+数据挖掘支持通过AutoML向导创建挖掘实验


背景介绍

随着数据挖掘在各种领域不断被应用,越来越多的人开始使用机器学习,而使用机器学习不仅需要用户具备一定专业知识,还需要花费大量的精力来进行算法与模型的选择。为了进一步降低用户的使用门槛,我们在数据挖掘中,支持使用AutoML向导快速创建数据挖掘实验,可以自动化的完成更多的工作,也可以让没有专业知识的人也能使用机器学习。

功能简介

新版本,数据挖掘中支持通过AutoML向导快速创建回归、分类和聚类实验。

详情参考

关于更多AutoML的功能,详情请参考 数据挖掘-AutoML 。


+【数据挖掘】关联规则生成


背景介绍
随着数据爆炸式增长,如何从海量数据中快速的挖掘出有用信息是当今社会亟待解决的问题。新版本的关联规则生成功能,支持输出更多关联规则的指标(置信度、提升度等),同时能自由筛选出多对多、多对一等不同关联形式,以此帮助用户快速生成关联规则、衡量其中的关联性,从海量数据中挖掘出有价值的数据,助力企业做出科学决策。


功能简介
关联规则生成,基于FP-Growth训练后的模型输入后,能够输出详尽的关联规则分析指标: 频繁项集、支持度、频率、 置信度、提升度、前项、后项及其数量。

详情参考

关于关联规则功能,详情请参考 关联规则生成 。


+【数据挖掘】引擎调度机制执行粒度细化至单个节点


背景介绍

目前引擎调度策略是把实验作为整体进行调度,实验中的节点无法脱离出来独立执行。若引擎能够按照节点粒度进行调度,这样会给引擎在功能和扩展性方面带来好处。

功能简介

新版本,引擎按照节点粒度进行调度,可以带来以下几点优势:

  • 可以做到断点续跑,如果在数据量大的情况下,会节省很大时间,提高实验的效率;
  • 能单独执行一个节点,在实验的设计跟调式阶段带来很大便利;
  • 可以对单节点进行资源控制,防止某个节点占用资源太大,对其它节点造成影响;
  • 调度更加灵活,同个实验中的不同节点,可以在不同机器中执行;
  • 部署架构扩张性更好,可以横向扩张节点的执行机器。

具体在 Smartbi上体现为节点的右键菜单增加“执行该节点”和“从当前节点开始执行”功能项。


+【数据挖掘】增加节点复制和备注功能


背景介绍

机器学习实验往往牵涉多个节点,各节点之间关系也较为复杂,更或者自定义的算法节点只有实验构建者才明白其中的含义;同时在实验构建过程中,可能出现节点复用的情况。因此新版本更新后,在实验和节点增加备注功能、节点增加复制功能,便于实验的交流和提高实验的构建速度。

功能简介

在画布空白处单击右键,选择“添加备注”,会弹出富文本编辑框,可以添加对实验背景的介绍等内容。

选中需要复制的节点,单击右键,出现‘复制’,也可以同时选中多个节点:

  • 拖动鼠标覆盖需要选择的节点,箭头滑过的矩形区域的节点都被选中;
  • 按住Crtrl键,鼠标逐个单击需要复制的节点。

详情参考

关于节点的备注和复制功能,详情请参考  实验界面介绍 。 


+【数据挖掘】新增kafka数据源节点


背景介绍

kafka是一种高吞吐量的分布式发布订阅消息系统,经常用于实时流数据架构,提供实时分析。它具有高吞吐量、低延迟,每秒可以处理几万条消息,延迟最低只有几毫秒,以及可扩展性、持久性、可靠性、容错性、高并发等优点。因此,Smartbi在新版本新增了Kafka数据源。

功能简介

Kafka作为数据源,有以上三种使用场景:

  • 准实时的数据处理:通过任务调度,持续消费kafka数据,提供给一系列数据处理节点进行处理,处理后的结果可以输出到目标数据库
  • 模型自学习:通过任务调度,持续消费kafka数据进行模型自学习
  • 模型批量预测:通过任务调度,定时消费kafka数据进行批量预测

这里展示当Kafka作为数据源时的模型自学习:

详情参考

关于kafka数据源,详情请参考  数据挖掘-数据的输入和输出


+【数据预处理】增加下采样节点


背景介绍

在数据挖掘过程中,原始数据的不均匀分布会影响到数据特征抽取,或者模型学习数据特征的效果,出现错判的情况,我们会对数据进行重采样,对原始数据进行初步加工,对出现频次较高的数据按照一定规则抽取一定数据使得整体分布均匀。

功能简介

新版本新增下采样节点,可通过移除数据量较多类别的部分数据,使样本达到均衡。

详情参考

关于数据挖掘的下采样,详情请参考  采样 。


+【数据预处理】新增异常值处理节点


背景介绍

无论是机器学习还是数据分析,总是要面对一大堆数据,总是免不了出现异常值的可能性,,异常值可以大幅度地改变数据分析和统计建模的结果,可能会造成回归、方差分析等统计模型假设的基本假设受影响等问题。

功能简介

新版本新增异常值处理节点,可对存在异常的数据进行检测和识别,且对识别出的异常值进行处理。

详情参考

关于数据挖掘的异常值处理,详情请参考  异常值处理


+【统计分析】统计分析增加RFM模型


背景介绍

RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。因此Smartbi在新版本新增RFM节点,为更多的营销决策提供支持。  

功能简介

RFM节点通过对选择的特征列按照阈值进行二分(可按均值、指定值、中值),将客户数据划分为不同的客群。新版本,左侧资源树统计分析节点下新增RFM节点。

详情参考

详情参考数据挖掘-RFM


+【评分卡分析】新增WOE编码节点


背景介绍

评分卡是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型,也是信用风险评估和互联网金融领域常用的建模方法,比如信用卡风险评估、贷款发放等业务。除此之外,在其它领域也能够看到评分卡被用来作为分数评估,比如常见的客服质量打分、芝麻信用分打分等。

功能简介

WOE则是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理,之后再计算出WOE值和IV值,根据这两个值来判断变量的预测强度。

因此新版本新增WOE编码节点,可以对字段分箱后计算WOE值和IV值。

在查看分析结果中记录了变量的IV值,分箱区间及每个区间的WOE值。

详情参考

关于WOE编码,详情请参考 数据挖掘-WOE编码


+【文本分析】文本分析增加词向量


背景介绍

在文本分析中,我们会先采用词频编码,根据词频信息进行简单主题聚类或文本分类。但是这种方法忽略了词序信息,也无法判断出两个词语之间的关系。而Word2vec词向量可以很好地解决这个问题,它的思路是通过训练,将每个词都映射到一个较短的词向量上来。所有的这些词向量就构成了向量空间,进而可以用普通的统计学的方法来研究词与词之间的关系。

功能简介

词向量节点作为文本处理常用的特征工程手段、在情感分析、语义分析上可以用来增加模型准确性、计算相似性等功能。新版本,左侧资源树文本分析节点下新增词向量节点。

在查看输出结果可以看到每个文本对应的词向量:

详情参考

详情参考V9数据挖掘-词向量【Beta版本功能】


+【文本分析】文本分析增加主题分析


背景介绍

LDA可以用于从海量的文本中,根据统计模型,自动提取出由关键词组成的热门主题,让我们快速知道,这些大量无规则的文本中,主要讲述了什么内容。业务人员在商业分析的过程中也是离不开海量的文本数据,如果将基于LDA的主题分析应用在商业分析上,那么将会给业务人员带来极大的方便。

功能简介

LDA主题模型主要用来推测文档的主题分布,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。 新版本,左侧资源树文本分析节点下新增LDA和主题-词分布(LDA)节点。

详情参考

详情参考V9数据挖掘-主题-词分布(LDA)【Beta版本功能】



  • 无标签