不断更新中
置灰功能还在开发中,文档根据功能开发进度更新。
红色标记文档还在编写中,暂无链接。
V10版本数据准备的改进点如下:
新增 | 增强 |
---|---|
+【数据准备】自助数据集增加计算能力 | ^【数据抽取】设定抽取时需要可以指定排序字段 |
+【数据准备】数据抽取支持滚动备份抽取目标表
背景介绍
在数据抽取功能的实际工作场景中,有些用户每日会增量抽取业务数据到高速缓存库中;如果发生源数据集表结构变更、增量信息不全、有误等等情况,产品则会清除高速缓存库中抽取目标表的数据;为了避免丢失高速缓存库中历史数据,在新版本中,产品支持滚动备份抽取目标表,方便后续恢复数据,有效提高数据安全。
功能简介
产品支持滚动备份抽取目标表,备份规则:在抽取数据之前,默认备份抽取表(第一次不备份)到数据库中,每抽取一次进行一次滚动备份,如果备份表的个数到设置的上限,下次备份则先移除最旧的备份表再进行备份。
在系统运维的 系统选项>高级设置 中, 新增“BACKUP_TAB_RETAIN_NUM”设置项,可设置在数据库中保留的备份表的个数,默认为5个。
注意事项
1、暂不支持自动恢复抽取目标表的数据,需要手工恢复。
2、高速缓存库为Infobright不支持抽取表备份。
+【数据准备】自助ETL新增Python脚本节点
背景介绍
随着大数据时代的到来,Python已经在数据处理、数据可视化、机器学习等领域受到广泛应用。新版本的ETL功能支持用户编写Python脚本,利用其丰富的科学计算扩展库,满足更多数据处理和分析场景,提高生产效率。
功能概述
Python脚本节点,支持用户编写Python代码,以便实现更自由、更高效的数据处理、数据分析操作,丰富了数据建模过程。
详情参考
关于Python脚本的功能,详情请参考 Python脚本 。
^【数据准备】数据源、目标源支持GreenPlum数据库
背景介绍
随着数据的爆炸性增长,用户对存储数据量的需求不断增加,产品在数据挖掘和自助ETL中,关系目标源支持使用Greenplum数据库。
Greenplum是一个面向数据仓库应用的关系型数据库,因为有良好的体系结构,所以在数据存储、高并发、高可用、线性扩展、反应速度、易用性和性价比等方面都有非常明显的优势,同时配置简单,因此深受用户的欢迎。
功能简介
在数据挖掘和自助ETL中,目标数据源支持GreenPlum数据库。
^【数据准备】支持创建ETL和挖掘资源的入口
背景介绍
以前的版本,在自助数据集中用户只能查看自助ELT和数据挖掘实验列表,不能进行创建、删除等操作,功能之间的结合不够完善。因此新版本在自助数据集中,新增新建自助ELT和数据挖掘实验的入口,可满足用户的进一步处理数据和挖掘分析的需求,增强了产品的可扩展性。
功能简介
自助数据集新增新建数据挖掘实验、自助ETL入口。
创建ETL入口 | |
---|---|
创建挖掘资源 |
^【数据准备】优化SQL语句编辑器
背景介绍
为了提高用户开发效率,增强内容的可阅读性,新版本对SQL编辑器增加了高亮显示关键字、折叠代码、输入自动提示等功能。
功能简介
(1)高亮显示关键字,可折叠括号内的代码,方便用户能一目了然重要内容。
(2)自动提示相关关键字、表、函数等,并支持一键补全,提升用户开发效率。
(3)新增IF函数,满足根据不同的条件输出不同的sql语句的场景;同时支持丰富的快捷键(Ctrl+F等),提高功能的易用性。
详情参考
关于SQL语句编辑器的功能,详情请参考SQL语句编辑器 。
^【数据准备】完善数据抽取日志
背景介绍
随着数据的爆炸性增长,用户需要抽取的数据量越来越大,所消耗的时间也越多。为了能在数据抽取的过程中了解抽取的状态、获得更多的信息,便于系统运维,新版本对数据抽取的日志进行完善。
功能简介
1、打开 系统监控>日志 界面,增加了一些抽取过程中的日志信息,如获取总行数、总耗时、入库百分比等等。
2、在抽取监控>抽取日志 的日志列表中不再仅限显示'抽取成功’、'抽取失败',新版本可展示更多的抽取进展、错误信息。
详情参考
关于数据抽取日志,详情请参考 抽取日志 。