第1页,共164页。 显示 1,631 条结果 (0.039 秒)
如何进行数据的增量抽取
需要让ETL,每天定时自动运行,自动抽取前一日数据。详细过程说明如下。 4.1 定义系统公共参数 为了获取“前一日”这样的动态日期值,我们使用 Smartbi 中的公共参数来做。进入“运维设置 → 全局资源定义 → 参数定义”界面,新建一个“参数”。 image2025-6-14_14-32-26.png … 1. 概述 我们在建设数据仓库、数据集市的过程中,通常使用 ETL 工具把数据从“源库”抽取到“目标库”。“源库”中的历史数据,通常数据量特别大,比如有几千万甚至数亿条记录,而历史数据通常又不发生变化。在抽取数据的过程中,如果我们选择全量抽取,对于那些根本不会发生变化的历史数据,也抽取一遍,不仅没有任何意义,还要直连&抽取
据模型引擎V2.0 上: 数据模型的结构没有调整,如果抽取失败,在报表层能正常查看数据(查看上一次抽取成功的数据)。 如果数据模型没有抽取,在查询报表时会自动抽取。 4.1.1 全量抽取 全量抽取模式: 1、如果使用 参数 进行权限控制,比如华南区域的员工只能查看华南的数据,华北区域员工只能查看华北的数据 … 引擎V2.0上优化了抽取逻辑,主要优化了: 支持设定动态有效期(默认30分钟):在运维设置/系统设置/高级选项:DATAMODEL_DYNAMIC_IMPORT_EXPIRED进行设置;如果超过了设置的时间,会自动清理旧表。 报表刷新时,系统将自动触发重新抽取; 相同权限的用户间,抽取结果共享,减少重复抽取数据模型引擎V2.0
,在尝试访问依赖于该模型的报表时,系统将自动触发数据模型的抽取过程。 2、若数据模型 引擎V1.0 通过扩展包接入数据源,升级至数据模型引擎V2.0 时,需同步升级扩展包以确保兼容性。 2 功能介绍 V2.0依然包含 SQL引擎和多维引擎,如果满足条件会系统会自动切换,无需手工切换: SQL引擎:详情可查 … 成功的数据) 按次抽取 session级别的,不同用户抽取是不一样的,不同用户无法共享,而且session不过期是不会清理表。 设定MPP表动态有效期:(默认30分钟会自动抽取,运维可配置,详情可查看:直连&抽取) 报表刷新时,系统将自动触发重新抽取,数据获取更及时; 优势: 1、MPP表高速缓存库保存的数据文件在哪里
(本文档仅供参考) 问题1 请问缓存到mpp的数据保存到哪里了,应该怎么查看数据文件大小? 说明: mpp保存到硬盘上,不同的mpp有不同的查看数据文件的方法,针对clickhouse,相应的数据文件存放在data目录下,在data目录下可以看到每个数据文件的大小,具体可参考网上相关说明文档。 问题2 透视分析,如果做的多维表,在高速缓存库里怎么存放的? 说明: 在设置自动抽取的情况下,高速缓存库存储了最终后台执行SQL的查询结果的宽表;具体存储的内容,可以直接连上高速缓存库查看。 6c8219a6-08f8-492e-8b9a-36b7234d2078.png用户行为分析
。 数据预览2.png 预览情况 处理方法 数据预览正常 进入下一步骤 提示“日期表不存在” 右键“日期表”-编辑,点击确认,新建日期表。 日期表.png 5、手动抽取数据,抽取方式可参考抽取设置 https://wiki.smartbi.com.cn/pages/viewpage.action?pageId=76692119。 注意:该示例中的数据模型已设置抽取计划:每天0:00自动抽取,可根据实际情况自行修改,修改方法可参考抽取计划 https://wiki.smartbi.com.cn/pages/viewpage.action?pageId=76692119。 6、打开 “用户用户行为分析
“日期表”-编辑,点击确认,新建日期表。 xingweifenxi-01.png 5、手动抽取数据,抽取方式可参考抽取设置。 注意:该示例中的数据模型已设置抽取计划:每天0:00自动抽取,可根据实际情况自行修改,修改方法可参考抽取计划。 6、打开 “用户行为分析看板” ,数据显示正常即可。可根据【跨版本升级变更】V10.5➜V11
最新版本中,高速缓存库连接支持指定Schema: 1、企业部署了多套BI系统,且系统间知识库相互独立。在旧版本中需要部署多个高速缓存库对应不同BI系统,增加运维成本。在新版本中,高速缓存库连接可直接在连接字符串中指定Schema。 2、若旧环境升级至 V11 版本,系统将默认启用 SmartbiMPP,数据会自动抽取 … 抽取模式时, 会自动创建计划任务并且激活。 V11修改为数据模型新建不激活计划任务。 在V11版本: 数据模型新建不激活计划任务。 旧数据(SQL数据集、自助数据集、可视化数据集、原生SQL数据集、即席查询(作为数据集)、透视分析(作为数据集))新建时创建的计划任务,默认改为禁用数据集抽取目录下的数据文件抽取完未自动删除
(本文档仅供参考) 问题说明 数据集抽取目录下的数据文件抽取完未自动删除,文件占用较大的磁盘空间。 image2024-8-31_13-42-55.png 解决方案 系统运维-高级选项中加了KEY_EXTRACT_KEEPTEMPFILE_FLAG=true导致的,保留了抽取的文件。去掉或者改为false即可。数据抽取
。 执行时间 简述定时抽取的任务内容,当定制完定时抽取的任务之后,会自动生成。 执行用户 资源创建者 表示当前自助数据集的创建用户,将只抽取该创建用户拥有的数据行权限内的数据。数据行权限详情请参考 数据权限 http://wiki.smartbi.com.cn:18081/pages … 。 即席查询的数据抽取功能不支持“增量抽取”。 4、数据抽取备份 1)在系统运维的 系统选项>高级设置 中,设置项 “BACKUP_TAB_RETAIN_NUM”可设置在数据库中保留的抽取表的个数,默认为5个,详情请参考 系统选项-高级设置 。 2)在数据抽取中只要清空抽取表的数据,系统就会自动增量抽取介绍
: chouqulog2.png 注意:增量更新时,如果与之关联的是事实表,系统会自动更新相关联的事实表中的小宽表。如果关联的事实表数据量较大,抽取时间可能会相对较长。 7、去创建即席查询,可以查看到刚新增与更新的记录: gengxinyuzhuijia04.png 如果已抽取2024-10-29的数据了,源库又更新 … 1 背景 若数据库中有一张表,每天都会新增数据,这时候用户可以使用 增量抽取,只将每天新增的数据更新到 Smartbi MPP 表,这样就不需要更新整张数据表,节省了更新时间和更新资源。 1、增量抽取只在数据模型引擎V2.0上生效。 2、目前增量抽取支持的缓存库有3个:SmartbiMpp、StarRocks