页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

...

把表数据相对平均分成多个分区,抽取程序会尽可能一个分区分配一个线程进行并行抽取,能够极大的提高大数据量情况下的数据抽取性能。

如图设置分区字段“累计治愈”的分区数量为4,最小值为1,最大值为20,则系统会以(-∞,5)、[5,10)、[10,15)、[15,+∞)这4个区间来并行读取数据,提升数据抽取性能。

Image Removed

  • 分区字段(必填):分区字段为数值型(不支持浮点型)、日期类型。
  • 分区数量(必填):设置抽取分区的数量,正整数。
  • 分区字段最小值/分区字段最大值(必填):在设置的最小值和最大值的区间中抽取数据。

分区字段的选取:

...

选择的字段尽可能把数据按照不同区间,相对平均分成多个分区。

...

这里关键在于如何把表数据相对平均分成多个分区,具体按照下面步骤进行:

1. 查询数据分布

查询数据分布是为了通过数据分布图表,直观展现出每个字段数据分布情况,帮助挑选出数据分布最为均匀的字段

Image Added

分区数量:表示把数据切分成多少个分区,系统会提供默认值,一般不需要修改,系统提供的默认值取决于分配给ETL执行引擎的cpu核数。

采样条数:对表数据进行采样条数,因为全量数据做数据分布计算性能较差,所以只能做数据采样

点击刷新按钮,就展现出数据分布图表,并默认选中数据分布最为均匀的字段。因为是基于采样的数据进行计算,所以展现出来的结果不是绝对准确的,

如果对表的数据比较了解的话,可以换选更加合适的字段作为分区字段,比如这里我们换行LO_ORDERDATE字段作为分区字段:

Image Added


2. 生成分区条件

Image Added

如图所示,点击生成分区条件按钮,便根据上面设置的分区数量跟选中的分区字段,生成分区条件。依据这个分区条件,就能把表数据均匀切分成

多个分区。

3.  计算分区条数

Image Added

由于生成的分区条件不确定是否可以把表的数据均匀切分,可以点击计算分区条数按钮进行计算每个分区的记录条数

4.  调整分区条件(可选)

Image Added

如果觉得数据分区并不均匀,可以对分区条件进行修改,每个分区条件都可以修改,不过这里修改要注意,要保证这些分区条件

能覆盖到所有的数据。  


使用场景:在一家互联网类企业中,用户使用产品的日志表按天或按季度做成的分区表,可以通过分区抽取数据,提升抽取性能。

...