页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

...

目前增量抽取还支持的场景:覆盖多少天/季度等,即每次抽取,根据日期及滚动周期将数据库中的新增以及部分历史数据抽取到MPP数据库中,其中历史数据将会覆盖原数据。


数据抽取耗时对比

数据模型如下图:

Image Added

1、【orders】入库方式"追加"

场景1:[orders]表原始数据1kw,增量100w和500w数据,追加情况

表名称

原始数据

列数

全量抽取耗时

增量数据

增量抽取耗时

(重新计算历史数据小宽表)

抽取提升效率


orders

1kw

25

263s(源表:233s + 小宽表:30s)

100w

98s(源表:51s+ 小宽表37s)

2.7倍

500W

186s(源表:120s+ 小宽表66s)

1.4倍

customers

200w

14

97s(源表:85s + 小宽表:12s)




场景2:[orders]表原始数据1亿,增量100w和500w数据,追加情况

表名称

原始数据

列数

全量抽取耗时

增量数据

增量抽取耗时(重新计算历史数据小宽表)

抽取提升效率

orders

1亿

25

2084s(源表:1809s + 小宽表:262s)

100w

434s(源表:172s+ 小宽表262s)

4.8倍

500W

584s(源表:296s+ 小宽表288s)

3.5倍

customers

200w

14

97s(源表:85s + 小宽表:12s)




2、【orders】入库方式"插入与更新"

场景1:[orders]表原始数据1kw,增量100w和500w数据,插入与更新情况

表名称

原始数据

列数

全量抽取耗时

增量数据

增量抽取耗时

(重新计算历史数据小宽表)

抽取提升效率


orders

1kw

25

263s(源表:233s + 小宽表:30s)

100w

140s(源表:51s+ 小宽表37s+合并42s)

1.9倍

500W

234s(源表:120s+ 小宽表66s+ 合并48s)

1.1倍

customers

200w

14

97s(源表:85s + 小宽表:12s)





场景2:[orders]表原始数据1亿,增量100w和500w数据,插入与更新情况)

表名称

原始数据

列数

全量抽取耗时

增量数据

增量抽取耗时(重新计算历史数据小宽表)

抽取提升效率

orders

1亿

25

2084s(源表:1809s + 小宽表:262s)

100w

740s(源表:172s+ 小宽表262s + 合并306s)

2.8倍

500W

904s(源表:296s+ 小宽表288s+合并320s)

2.3倍

customers

200w

14

97s(源表:85s + 小宽表:12s)





问题1: 我的原始数据是3000w,每天增量10w,列数:60列,抽取大概需要多久?

答:是一千万的三倍,但是抽取时间是会比3倍少,全量大概10分钟, 增量抽取耗时大概90s。


问题3:我的机器配置是:X86架构 32核; 内存 128G,硬盘1TB+?"5.1.1 "、"5.1.2"的场景,抽取时间是多少?

答:此配置远比上面测试环境高,那么抽取耗时也会比上述测试数据低一些。