抽取包含抽取设置、抽取计划和抽取日志三部分内容。
只有当”抽取“连接模式呈选中状态时,显示向下箭头,单击该箭头弹出下拉菜单:
抽取模式支持的高速缓存库类型有:SmartbiMpp、Presto+Hive、Vertica和星环。 |
入口 | 抽取设置窗口 |
---|---|
在“抽取”连接模式下,在表数据区单击 抽取设置 按钮。 | |
抽取切换键下拉菜单 抽取设置。 | 私有查询对象列表蓝底的对象,表示当前抽取设置是针对该私有查询的。 |
全量抽取表示把数据全部抽取。
全量抽取各设置项说明如下:
设置项 | 说明 |
---|---|
基本设置 |
|
抽取表设置 | 抽取表设置后台提高抽取性能的一项设置,可以通过选择”分区字段“和”分区类型“来确定分批抽取的标准。 “分区字段”和“分区类型”设置项用于设置集群的数据抽取,若未选择时间字段,则不使用Smartbiampp集群建表。 “分区字段”要求为日期类型的。 1、在不清空数据的情况下,集群多次抽取以首次选择的分区类型为准。如首次抽取分区类型选择“年”,再次抽取且不清空数据时,分区字段选择“月/日”,抽取后表数据追加,仍按年分区。 2、如果mpp是单机部署的,则无论是否有设置分区字段,都默认使用Log引擎创建表;如果mpp是集群部署的,则选择分区字段后,将使用MergeTree引擎创建表。 |
抽取参数值 |
|
增量抽取表示只抽取新增的数据:增量通过时间戳来进行判断,根据设定的时间字段和参数来匹配出增量的数据进行抽取。
增量抽取各设置项说明如下:
设置项 | 说明 |
---|---|
基本设置 |
|
抽取表设置 | 抽取表设置后台提高抽取性能的一项设置:当数据量超大时,一次抽取可能耗费大量的时间和内存,因此可以通过”分区字段“和”分区类型“对抽取的数据进行分批抽取设置。 “分区字段”要求为日期类型。 1、在不清空数据的情况下,集群多次抽取以首次选择的分区类型为准。如首次抽取分区类型选择“年”,再次抽取且不清空数据时,分区字段选择“月/日”,抽取后表数据追加,仍按年分区。 2、如果mpp是单机部署的,则无论是否有设置分区字段,都默认使用Log引擎创建表;如果mpp是集群部署的,则选择分区字段后,将使用MergeTree引擎创建表。 |
抽取参数值 |
|
按次抽取是结合用户的登录生成的Session及查询的参数组合进行抽取。
使用场景:
抽取计划是指通过计划任务对私有查询进行抽取,抽取计划是针对整个数据模型的,该模型下的所有私有查询皆按照该计划执行抽取操作。
抽取计划执行的前提:当前数据模型必须已经保存。 |
抽取切换键下拉菜单 抽取计划:
抽取计划界面如下图所示:
抽取计划的设置项详情请参考 计划任务 相关内容。
抽取日志用于显示当前数据模型下各私有查询的抽取详情,包含了抽取开始结束时间、抽取状态等信息。
抽取切换键下拉菜单 抽取日志:
抽取日志界面如下:
抽取日志详情请参见 抽取日志。
1、原始数据性能慢,希望提升查询速度。
2、数据变化频率不高。
1、导入文件、脚本查询、ETL高级查询、存储过程查询必须使用抽取模式。
2、使用了infobright作为高速缓存库的老用户,为了保证V10新功能的使用,需要重新配置高速缓存库。
3、数据模型的参数在自助仪表盘应用时,参数切换有效的前提是:连接模式必须是“直连”或者“按次抽取”。