页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

注意:(V10版本于2021年4月份发布,新特性列表中:新特性列表中:+表示新增;^表示增强)

目录

状态
colourRed
title不断更新中

置灰功能还在开发中,文档根据功能开发进度更新。

红色标记文档还在编写中,暂无链接。

V10版本数据准备的改进点如下:

新增增强

+【数据抽取】数据抽取支持备份表数据

+【ETL】支持Python

+【数据准备】自助数据集增加计算能力

^【ETL】数据源、目标源支持GreenPlum

^【自助数据集】支持创建ETL和挖掘资源的入口

^【数据集】优化SQL语句编辑器

^【数据抽取】完善数据抽取日志

^【数据抽取】设定抽取时需要可以指定排序字段 

+【数据抽取】数据抽取支持备份表数据

背景介绍

在数据抽取功能的实际工作场景中,有些用户每日会增量抽取业务数据到高速缓存库中;如果发生源数据集表结构变更、增量信息不全或有误等等情况,产品则会清除高速缓存库中抽取目标表的数据;为了避免丢失高速缓存库中历史数据,在新版本中,产品支持备份抽取目标表和数据,方便后续恢复数据,有效提高数据安全。

功能简介

在系统运维的 系统选项>高级设置 中, 新增“BACKUP_TAB_RETAIN_NUM”设置项,可设置在数据库中保留的备份表的个数,默认为5个。

备份规则:在抽取数据之前,默认备份抽取表(第一次不备份)到数据库中,每抽取一次进行滚动备份,备份到设置的上限后,下次备份则移除最旧的备份表。

Image Removed

注意事项

1、暂不支持抽取目标表数据自动恢复,需要手工恢复。

2、高速缓存库为infobright不支持抽取表备份。

+【ETL】支持Python

背景介绍

随着大数据时代的到来,Python已经在数据处理、数据可视化、机器学习等领域受到广泛应用。新版本的ETL功能支持用户编写Python脚本,利用其丰富的科学计算扩展库,满足更多数据处理和分析场景,提高生产效率。

V10版本数据准备的改进点如下:

V10_数据准备_新增数据模型,将所有查询结果归集并基于CUBE重新构建数据结构
V10_数据准备_新增数据模型,将所有查询结果归集并基于CUBE重新构建数据结构



+【数据准备】新增数据模型,将所有查询结果归集并基于CUBE重新构建数据结构


背景介绍

随着市场竞争的日趋激烈,企业的决策更加强调及时性和准确性,越来越多的用户需要多维度、更加灵活的方式观察数据变化,以获得对数据更加深入的了解,从而更好的促进企业的发展。为了满足用户的需求,新版本产品新增数据模型,可实现将所有查询结果归集后,基于CUBE模型重新构建数据结构。CUBE模型主要以“维度”和“度量”进行构建,同时增加了“成员”和“命名集”的创建,实现了数据模型构建的灵活性及应用广泛性。

功能概述

新版本在 数据准备>数据集 中,新增“数据模型”类型。

Image Added

包含了以下功能:

私有查询

数据模型可实现将所有数据集作为私有查询结果归集。

支持数据来源有:数据源表、数据文件、SQL查询、即席查询、脚本查询、存储过程查询和ETL高级查询。

Image Added

重构数据结构

数据模型基于CUBE模型重新构建了数据结构,CUBE模型主要以“维度”和“度量”进行构建,支持使用MDX表达式创建计算度量、计算成员、命名集。

Image Added

参数及参数管理

数据模型支持设置每个私有查询的参数,可对整个数据集包含的参数进行管理。

Image Added

应用于报表

数据模型作为数据来源,可用于定制自助仪表盘和电子表格。

Image Added

Image Added

参考文档

关于数据模型的功能,详情请参考 数据模型 。

V10_数据准备_自助ETL新增Python脚本节点
V10_数据准备_自助ETL新增Python脚本节点



+【数据准备】自助ETL新增Python脚本节点


背景介绍

随着大数据时代的到来,Python已经在数据处理、数据可视化、机器学习等领域受到广泛应用。V10版本的ETL功能支持用户编写Python脚本,利用其丰富的科学计算扩展库,满足更多数据处理和分析场景,提高生产效率。

功能概述

Python脚本节点,支持用户编写Python代码,以便实现更自由、更高效的数据处理、数据分析操作,丰富了数据建模过程。

详情参考参考文档

关于Python脚本的功能,详情请参考 Python脚本 。

^【ETL】数据源、目标源支持GreenPlum数据库

背景介绍

随着数据的爆炸性增长,用户对存储数据量的需求不断增加,产品在数据挖掘和自助ETL中,关系目标源支持使用Greenplum数据库。

Greenplum是一个面向数据仓库应用的关系型数据库,因为有良好的体系结构,所以在数据存储、高并发、高可用、线性扩展、反应速度、易用性和性价比等方面都有非常明显的优势,同时配置简单,因此深受用户的欢迎。

功能简介

在数据挖掘和自助ETL中,目标数据源支持GreenPlum数据库。

Image Removed

^【自助数据集】支持创建ETL和挖掘资源的入口

背景介绍

以前的版本,在自助数据集中用户只能查看自助ELT和数据挖掘实验列表,不能进行创建、删除等操作,功能之间的结合不够完善。因此新版本在自助数据集中,新增新建自助ELT和数据挖掘实验的入口,可满足用户的进一步处理数据和挖掘分析的需求,增强了产品的可扩展性。

功能简介

自助数据集新增新建数据挖掘实验、自助ETL入口。

创建ETL入口

Image Removed

创建挖掘资源

Image Removed

^数据集优化SQL语句编辑器

背景介绍

为了提高用户开发效率,增强内容的可阅读性,新版本对SQL编辑器增加了高亮显示关键字、折叠代码、输入自动提示等功能。

功能简介

(1)高亮显示关键字,可折叠括号内的代码,方便用户能一目了然重要内容。

Image Removed

(2)自动提示相关关键字、表、函数等,并支持一键补全,提升用户开发效率。

Image Removed

(3)新增IF函数,满足根据不同的条件输出不同的sql语句的场景;同时支持丰富的快捷键(Ctrl+F等),提高功能的易用性。

Image Removed

详情参考

关于SQL语句编辑器的功能,详情请参考SQL语句编辑器 。

^【数据抽取】完善数据抽取日志

背景介绍

随着数据的爆炸性增长,用户需要抽取的数据量越来越大,所消耗的时间也越多。为了能在数据抽取的过程中了解抽取的状态、获得更多的信息,便于系统运维,新版本对数据抽取的日志进行完善。

功能简介

1、打开 系统监控>日志 界面,增加了一些抽取过程中的日志信息,如获取总行数、总耗时、入库百分比等等。

Image Removed

2、在抽取监控>抽取日志 的日志列表中不再仅限显示'抽取成功’、'抽取失败',新版本可展示更多的抽取进展、错误信息。

Image Removed

详情参考

关于数据抽取日志,详情请参考 抽取日志 。

V10_数据准备_新增作业流功能,实现多ETL实验之间执行依赖关系
V10_数据准备_新增作业流功能,实现多ETL实验之间执行依赖关系



+【数据准备】新增作业流功能,实现多ETL实验之间执行依赖关系


背景介绍

在数据准备中,从原始数据到最终展现数据需要经过多个ETL实验处理,这些ETL实验的执行调度存在着依赖关系,也就是多个ETL实验需要按照指定的顺序和条件调度执行。新版本,产品在自助ETL中新增作业流功能,是一个轻量级的调度功能,多个ETL实验可按照指定的顺序和条件调度执行,实现了多ETL之间执行依赖关系。

功能简介 

新版本,产品在自助ETL中新增作业流功能,可将自助ETL、作业流实验当做作业执行。

Image Added

并支持设置分支条件,作业只有满足设置的条件才会继续执行。

Image Added

系统运维人员可通过作业流监控,对作业流的运行情况进行监控。

Image Added

参考文档

关于作业流的功能,详情请参考 作业流 。

V10_数据准备_新增多表JOIN节点,支持同时接入多个数据源并设置表关系
V10_数据准备_新增多表JOIN节点,支持同时接入多个数据源并设置表关系



+【数据准备】新增多表JOIN节点,支持同时接入多个数据源并设置表关系


背景介绍

在实际应用中,有的用户业务复杂需要多张表的多个指标实现,使用节点数量较多,用户操作重复性高、灵活性较差。为了解决以上问题,新版本产品新增多表JOIN节点,支持同时接入多张数据源表并设置表关系,将多张表合并为一张表,减少产品与数据库的交互,提高产品性能。

功能简介 

新版本,在数据模型、自助ETL、数据挖掘中,数据预处理下新增多表JOIN节点,支持同时接入多个数据集并设置表关系。

Image Added

参考文档

关于多表JOIN节点功能,详情请参考 数据挖掘-多表JOIN 。

V10_数据准备_新增组合查询节点,支持去重、聚合、计新建算字段等高级功能
V10_数据准备_新增组合查询节点,支持去重、聚合、计新建算字段等高级功能



+【数据准备】新增组合查询节点,支持去重、聚合、计新建算字段等高级功能


背景介绍

在实际场景中,有的用户业务复杂需要多张表的多个指标实现,且在数据处理时进行聚合、排序、条件筛选操作等,需要通过多个节点处理,操作既麻烦又复杂,也增加了实验运行的时间。为了解决以上问题,新版本产品新增组合查询节点,支持灵活选择查询的字段和去重、聚合、新建计算字段等高级功能 ,提升了数据处理效率与性能。

功能简介 

新版本在自助ETL、ETL高级查询、数据挖掘中,新增组合查询节点。

Image Added

支持灵活的选择字段和去重、条件筛选、聚合筛选、聚合、排序、修改别名、新建计算字段、批量选择列、取消选择列等高级功能。

Image Added

注意事项

组合查询节点只支持使用ClickHouse21及以上版本作为高速缓存库。

参考文档

关于组合查询节点,详情请参考 数据挖掘-组合查询 。

V10_数据准备_新建或编辑计算度量、成员、命名集支持参数设置
V10_数据准备_新建或编辑计算度量、成员、命名集支持参数设置



^【数据准备】数据模型新建或编辑计算度量、成员、命名集支持参数设置


功能简介 

为了满足用户更多需求,进一步扩大参数的应用范围,新版本支持用户在数据模型中新建或编辑度量、成员、命名集时设置参数,可实现动态获取结果。

Image Added

注意事项

由于清单表不支持度量,因此不支持新建命名集。

V10_数据准备_取消支持Infobright作为高速缓存库
V10_数据准备_取消支持Infobright作为高速缓存库



<【数据准备】取消支持Infobright作为高速缓存库


功能简介

由于Infobright性能较差,不适合作为用户生产环境的缓存库,因此新版本产品取消支持Infobright作为高速缓存库。