页面历史

...

如果这里显示分配的内存跟改的一样，那就是修改成功

分配CPU:

如果不设置，默认分配了服务器所有cpu核数，如果服务器cpu核数不超过24核，保持默认值就好，如果超过24核，可以设置为24核。

因为设置更多核数，对性能提升有限，以免并发过大对数据库造成压力过大，出现稳定性问题。（注意：这说的核数是指cpu逻辑核数）如果不设置，默认分配了服务器所有cpu核数，这个值的设置跟分配给etl引擎内存有关，推荐的配比是1核cpu配4G内存（这个配比系统更为稳定）。

详细参考下表进行设置。（注意：这说的核数是指cpu逻辑核数）

服务器cpu核数

分配给etl引擎内存

设置值

备注

小于24

内存紧张情况（内存大小(单位G)小于cpu核数）：

1核cpu配1G内存（例如：服务器cpu核数16核，分配etl引擎内存8G，那就设置成local[8]，

注意：如果这里设置核数大于内存大小(单位为G)，容易出现内存溢出）

内存比较充足情况：

1核cpu配置4G内存(例如：服务器cpu核数16核，分配etl引擎内存64G，那就设置成local[16])

注意：任何情况，local 后面的数字

都不能设置比服务器cpu核数大

大于等于24

大于等于96G

local[24]

因为设置更多核数，对性能提升有限，

以免并发过大对数据库造成压力过大，

出现稳定性问题。

如需设置，参考下图，红框中local后面的数字，就表示分配cpu核数。默认值local[*] 表示分配了服务器所有cpu核数

...

分区设置为了把表数据相对平均分成多个分区，抽取程序会尽可能一个分区分配一个线程进行并行抽取，这样能够极大的提高大数据量情况下的数据抽取性能。

这里关键在于如何把表数据相对平均分成多个分区，具体按照下面步骤进行：

1. 查询数据分布

查询数据分布是为了通过数据分布图表，直观展现出每个字段数据分布情况，帮助挑选出数据分布最为均匀的字段

Image Modified

分区数量：表示把数据切分成多少个分区，系统会提供默认值，一般不需要修改，系统提供的默认值取决于分配给ETL执行引擎的cpu核数。

采样条数：对表数据进行采样条数，因为全量数据做数据分布计算性能较差，所以只能做数据采样

点击刷新按钮，就展现出数据分布图表，并默认选中数据分布最为均匀的字段。因为是基于采样的数据进行计算，所以展现出来的结果不是绝对准确的，

如果对表的数据比较了解的话，可以换选更加合适的字段作为分区字段，比如这里我们换选LO_ORDERDATE字段作为分区字段：

Image Modified

2. 生成分区条件

Image Modified

如图所示，点击生成分区条件按钮，便根据上面设置的分区数量跟选中的分区字段，生成分区条件，每个分区条件对应到一个数据分区。

3. 计算分区条数

Image Modified

由于生成的分区条件不确定是否可以把表的数据均匀切分，可以点击计算分区条数按钮进行计算每个分区的记录条数

4. 调整分区条件(可选)

Image Modified

如果觉得数据分区并不均匀，可以对分区条件进行修改，每个分区条件都可以修改，不过这里修改要注意，要保证这些分区条件

能覆盖到所有的数据。

至此，完成了分区设置，以上图的例子，已经比较均匀把数据分成8个分区，执行的时候每个分区就会有对应一个线程对数据进行抽取，

总共就有8个线程并行抽取，理论上性能随着并行数量线性提升。

注意：如果表的数据量比较大，上面每个步骤的操作可能会有一定耗时，请耐心等待。

选择列

Image Modified

选择列是为了只选择需要的字段，减少数据传输，从而提升性能。如果需求上要求所有字段都是需要的，那这里无需设置。

关系目标表节点配置

一般不需要做特别设置，根据不同场景选择不同节点。全量数据抽取，使用关系目标表(覆盖) 节点，增量数据追加，使用关系目标表(追加)，

增量数据更新，使用关系目标表(插入或更新)。

如果是mysql 协议的数据库，建议在数据源url 上加上rewriteBatchedStatements=true 这个参数，这个参数对应写的性能提升非常显著。

Image Added

其它高级配置

一般其它的高级配置，保持默认值，就能跑出比较好的性能，如果还想优化到极致，可以尝试调整

关系数据源节点高级配置

Image Added

关系目标表节点高级配置

Image Added

页面树结构

版本比较

旧版本 13

新版本当前版本

标识

关系目标表节点配置

其它高级配置

关注我们

服务支持

页面树结构

页面历史

版本比较

旧版本 13

新版本 当前版本

标识

关系目标表节点配置

其它高级配置

新版本当前版本