...
目前增量抽取还支持的场景:覆盖多少天/季度等,即每次抽取,根据日期及滚动周期将数据库中的新增以及部分历史数据抽取到MPP数据库中,其中历史数据将会覆盖原数据。
4 数据抽取耗时对比
数据模型如下图:
1、【orders】入库方式"追加"
场景1:[orders]表原始数据1kw,增量100w和500w数据,追加情况
表名称 | 原始数据 | 列数 | 全量抽取耗时 | 增量数据 | 增量抽取耗时 (重新计算历史数据小宽表) | 抽取提升效率 |
orders | 1kw | 25 | 263s(源表:233s + 小宽表:30s) | 100w | 98s(源表:51s+ 小宽表37s) | 2.7倍 |
500W | 186s(源表:120s+ 小宽表66s) | 1.4倍 | ||||
customers | 200w | 14 | 97s(源表:85s + 小宽表:12s) |
场景2:[orders]表原始数据1亿,增量100w和500w数据,追加情况
表名称 | 原始数据 | 列数 | 全量抽取耗时 | 增量数据 | 增量抽取耗时(重新计算历史数据小宽表) | 抽取提升效率 |
orders | 1亿 | 25 | 2084s(源表:1809s + 小宽表:262s) | 100w | 434s(源表:172s+ 小宽表262s) | 4.8倍 |
500W | 584s(源表:296s+ 小宽表288s) | 3.5倍 | ||||
customers | 200w | 14 | 97s(源表:85s + 小宽表:12s) |
2、【orders】入库方式"插入与更新"
场景1:[orders]表原始数据1kw,增量100w和500w数据,插入与更新情况
表名称 | 原始数据 | 列数 | 全量抽取耗时 | 增量数据 | 增量抽取耗时 (重新计算历史数据小宽表) | 抽取提升效率 |
orders | 1kw | 25 | 263s(源表:233s + 小宽表:30s) | 100w | 140s(源表:51s+ 小宽表37s+合并42s) | 1.9倍 |
500W | 234s(源表:120s+ 小宽表66s+ 合并48s) | 1.1倍 | ||||
customers | 200w | 14 | 97s(源表:85s + 小宽表:12s) |
场景2:[orders]表原始数据1亿,增量100w和500w数据,插入与更新情况)
表名称 | 原始数据 | 列数 | 全量抽取耗时 | 增量数据 | 增量抽取耗时(重新计算历史数据小宽表) | 抽取提升效率 |
orders | 1亿 | 25 | 2084s(源表:1809s + 小宽表:262s) | 100w | 740s(源表:172s+ 小宽表262s + 合并306s) | 2.8倍 |
500W | 904s(源表:296s+ 小宽表288s+合并320s) | 2.3倍 | ||||
customers | 200w | 14 | 97s(源表:85s + 小宽表:12s) |
问题1: 我的原始数据是3000w,每天增量10w,列数:60列,抽取大概需要多久?
答:是一千万的三倍,但是抽取时间是会比3倍少,全量大概10分钟, 增量抽取耗时大概90s。
问题3:我的机器配置是:X86架构 32核; 内存 128G,硬盘1TB+?"5.1.1 "、"5.1.2"的场景,抽取时间是多少?
答:此配置远比上面测试环境高,那么抽取耗时也会比上述测试数据低一些。