第13页,共87页。 显示 865 条结果 (0.02 秒)
作业流
1、概述 作业流,是ETL作业依赖编排工具,用户可以通过图形化的界面,对ETL的依赖进行编排。其中,ETL依赖是指从原始数据到最终展现数据,可能需要经过多个ETL过程,ETL的执行存在着依赖关系。 作业,是用户在一次算题过程中或一个事务处理中要求计算机系统所做的工作的集合,正在执行的一个或多个相关进程被称为 … image2025-3-4_17-12-45.png 界面说明如下: 名称 说明 “添加节点”面板或弹窗 可将通用节点,或自助ETL、作业流等资源当做作业拖拽到画布区中使用。 通用:开始(每个作业流必须包含该节点)、检查依赖、检查文件存在、检查字段值、检查挖掘评估、循环器逻辑租户扩展包使用手册
配置系统资源目录默认权限 租户初始化之前需要在各系统默认的资源目录配置资源权限,需要配置权限的目录有数据连接、数据准备(指标模型、自助ETL、作业流、ETL自动化、业务主题、数据集)、分析展现、公共空间。 数据连接,打开数据连接菜单,选择数据连接,点击右键打开资源授权 … 其他目录例如数据准备(指标模型、自助ETL、作业流、ETL自动化、业务主题、数据集)、分析展现、公共空间等也按次操作进行资源授权处理。 创建租户 在多租户管理界面,点击"创建租户",填写租户信息。 worddavf318b7c997848edbc4b5d697a33f0369.png大数据量抽取性能优化
1. 应用场景 超大数据量抽取性能无法满足需求,需要优化。 2. 实施步骤 2.1 ETL部署服务器配置 数据抽取性能优化的关键是尽可能多线程并行抽取,多线程就要求有多核cpu,每个线程执行的时候,也需要消耗内存,数据抽取的时候,会有数据落盘,对磁盘容量跟IO性能也有一定要求。总体而言,越高的服务器配置越能优化出更好的性能,如果服务器配置过低,通过调整其它配置,性能优化空间有限。为了保证有一定优化效果,配置要求: CPU 内存 硬盘 8核+ 32G+ 300G+ 2.2 ETL引擎配置 为了最大利用服务器硬件资源,ETL执行引擎需要做下面几个配置: 2.2.1 分配内存 如果不设置,默认Smartbi V10.5.12-数据准备
注意:(新特性列表中:+表示新增;^表示增强) V10.5.12 版本重点详细改进情况如下: 新增 增强 +【数据模型】支持向导创建计算度量 +【ETL】通过产品帮助功能创建节点使用示例 +【ETL】自定义帮助指引系统 +【ETL】ETL节点树支持展开调整 +【ETL】监控建模增加停止功能 +【ETL】增加日期时间节点 +【ETL】增加正则表达式匹配节点 +【ETL】节点能够自动连接 +【ETL】ETL支持自动布局 +【作业流】支持调度数据挖掘实验 +【作业流】支持检查数据挖掘实验评估节点 ^【指标管理】指标模型支持生成多个数据模型 ^ 【指标管理】指标模型支持分别定义维度和维表抽取数据到动态表(表名不是固定的)
1. 应用场景 数据需要按天存储,每天数据需要存放在当天的日期后缀表中。 2. 实现思路 定义公共参数获取当前日期。 在etl 中定义一个etl 参数引用公共参数。 etl 中把当天的数据覆盖的方式写入到一张临时表。 在目标表(覆盖) 节点的执行后sql 中,根据这张临时表创建当天日期后缀表,日期后缀 … 。 image2024-12-5_16-11-49.png 3.2 定义一个ETL参数引用公共参数 image2024-12-5_16-13-43.png 3.3 ETL中把当天的数据覆盖的方式写入到一张临时表 image2024-12-5_16-15-16.png 3.4 把临时表数据写入到日期后缀表 勾选运行后SQL脚本,然后点开SQL脚本编辑框指标管理 ⬝ 创建事实表
或同一个指标。 3 实现事实表的表数据 对事实表数据进行管理的方式有两种:在线编辑数据、通过绑定自助ETL实现灌数。 在线编辑数据:在前端以Excel的形式提供在线编辑表数据的功能,适合业务或IT人员实现小批量数据的录入和修改。 绑定自助ETL:通过ETL工具实现数据抽取、转换、加载,适合数据量较大并且对数据转换的要求比较高的情况,同时需要具备一定的ETL工具能力。 3.1 在线编辑数据 1、打开某个事实表,点击 数据预览 ,查看事实表数据。 事实表-预览.png 2、点击右侧的 在线编辑 ,打开在线编辑数据的窗口。 ● 目前暂时只支持小数据量的场景,默认限制表数据小于等于1000行时,才能Smartbi V10.5-数据挖掘
注意:(新特性列表中:+表示新增;^表示增强) 具体改进点如下: 新增 增强 +【数据挖掘】文本分析新增LSH、相似集计算(LSH)节点 +【数据挖掘】支持导出PMML模型文件 +【数据挖掘】朴素贝叶斯、决策树、多层感知机等算法支持自动调参设置 +【数据挖掘】新增ETL和挖掘实验日志 +【自助ETL/数据挖掘/ETL高级查询】数据源新增FTP数据源 ^【数据挖掘】关系目标表支持GaussDB 200数据库 ^【自助ETL/数据挖掘】关系数据源节点兼容更多数据源 ^【数据挖掘】异常值处理节点新增删除异常行功能 +【数据挖掘】文本分析新增LSH指标管理 ⬝ 创建维表
的表数据 新建维表的表结构后,再实现维表的表数据,Smartbi 有两种方式实现表数据,分别是:在线编辑数据、通过绑定自助ETL实现灌数。 在线编辑数据:在前端以Excel的形式提供在线编辑表数据的功能,适合业务或IT人员实现小批量数据的录入和修改。 绑定自助ETL:通过ETL工具实现数据抽取、转换、加载,适合数据量较大并且对数据转换的要求比较高的情况,同时需要具备一定的ETL工具能力。 3.1 在线编辑数据 1、打开某个维表,点击 数据预览 ,查看维表数据。 数据预览.png 2、点击右侧的 在线编辑 ,打开在线编辑数据的窗口。 由于SQL查询的数据结果,可能是通过SQL语句查询多个表而来,所以无法Smartbi V10-数据准备
注意:(新特性列表中:+表示新增;^表示增强) V10版本数据准备的改进点如下: 新增 增强 变更 +【数据准备】新增数据模型,将所有查询结果归集并基于CUBE重新构建数据结构 +【数据准备】自助ETL新增Python脚本节点 +【数据准备】新增作业流功能,实现多ETL实验之间执行依赖 … 实现将所有数据集作为私有查询结果归集。 支持数据来源有:数据源表、数据文件、SQL查询、即席查询、脚本查询、存储过程查询和ETL高级查询。 image2021-8-11_17-36-19.png 重构数据结构 数据模型基于CUBE模型重新构建了数据结构,CUBE模型主要以“维度”和“度量”进行构建,支持使用MDX数据类型转换函数
使用【数据模型-ETL高级查询】实现数据处理时,smartbi提供【元数据编辑节点】用于修改数据集中字段的一些属性,包括名称、别名、数据类型及字段顺序等。 但若实际数据分析场景中有更多较为灵活的数据类型转换场景,smartbi支持以下Spark SQL数据类型转换函数供数据分析人员使用。Spark SQL函数可在ETL功能的【派生列】 https://wiki.smartbi.com.cn/pages/viewpage.action?pageId=51940629、【过滤】 https://wiki.smartbi.com.cn/pages/viewpage.action?pageId=51940603以及【SQL脚本