页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

...

信息

1、抽取的分区设置目前支持的MPP库:只有SmartbiMpp产品默认使用高速缓存库CHStarRocks

2、分区设置仅支持抽取模式,支持的范围:全量抽取、增量抽取、查询动态抽取。

下面以示例说明分区设置的操作以及查看是否命中了分区。

以产品内置的northwind数据库里面的【orders】、【orderdetails】为示例构建数据模型

1、把【orders】、【orderdetails】加载到数据模型中,并创建数据模型

Image Added


2、保存好模型,设置模型为 抽取 模式,并设置【orders】为全量抽取,设置分区设置:

Image Added

选项

分区设置选择日期或日期时间类型的字段作为分区依据时,系统会自动将数据分配到相应的分区表中。这样做不仅有助于更快的抽取数据,还能显著提升查询效率,特别是在进行大规模数据分析时。
温馨提示:
请选择一个在记录创建后几乎不发生变化的字段作为分区字段,例如记录的创建时间。
避免使用那些在数据生命周期内可能会更新的字段(如最后修改时间),因为这会导致分区数据重复或不准确。

分区字段目前只支持日期、日期时间字段,每次只能选择一个字段。

分区格式

选项:年、年季、年月、年月日。暂不支持年周,原因:starRocks不支持年周,而clickhouse支持年周的话 会与年季有冲突。


信息

max_partitions_per_insert_block设置方法:

方法一:配置文件设置

  1. 找到ClickHouse的配置文件,通常位于/etc/clickhouse-server/config.xml或/etc/clickhouse-server/users.xml。

  2. 在配置文件中找到块,该块包含了ClickHouse的配置选项。

  3. 在块中添加以下配置项:

<profile>
<max_partitions_per_insert_block>1000</max_partitions_per_insert_block>
</profile>
  1. 保存并关闭配置文件。

  2. 重启ClickHouse服务,使配置生效。

方法二:会话级别设置

  1. 在ClickHouse客户端中连接到数据库

  2. 在会话中执行以下SQL语句:

SET max_partitions_per_insert_block=1000(1000只是示意,可自行修改)
  1. 该设置将仅在当前会话中生效,适用于临时导入大量数据的情况。


3、设置好分区之后对模型进行抽取,点击【立即抽取】,再去“系统监控/SQL/MDX监控”查看到抽取到MPP表的表名,如下图:

Image Added

4、使用数据库工具连接MPP库,使用下面的语句查看是否命中分区?

如果查询有对应的数据,则分区成功。

Image Added

代码块
SELECT
    partition,
    name,
    active
FROM system.parts
where table like '%o_662e015ae0aced9a870441ef1f3a2990_0_2%'


4.1.5 抽取设置介绍

信息
title前置条件

抽取的整体逻辑简单介绍:

  • 先把数据模型每个查询的数据写入到CSV文件。
  • 再把CSV文件导入到MPP对应的临时表中。
  • 等把所有的查询都数据“拷贝”到MPP中后,再把MPP中每个查询的数据导入到大宽表中(根据模型基数关系生成的大宽表),其中引擎V2.0是生成小宽表,;如果其中一个查询“导入”数据失败,抽取就算失败。

...