页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

...

信息
iconfalse

目前支持的数据库:

MySQL,Oracle,Clickhouse,DB2,SQL Server,Vertica,Inforbright,Presto,Hive,星环-Inceptor,Postgresql,GreenPlum,Gauss100,Gauss200,Gbase 8A,Gbase 8S,Gbase 8T,达梦6,达梦7,Sybase,Hana,Aliyun AnalyticDB,Aliyun MaxCompute、MariaDB,华为Fusioninsight,Teradata、Teradata_V12、神通(单节点/集群)、Kingbase、Kingbase_V8、Kingbase AnalyticsDB、Informix、Obase、Kylin(麒麟)、Impala、MonetDB、starRocks(社区版2.2.2)、Rapids(博睿)、OceanBase、OceanBase_Oracle、Oceanbase_MySQLSelectDB、SparkSQL、Other、TIDB、MogDB、PanWeiDB、YMatrix、磐维、ByteHouse、Doris、ArgoDB,CirroData。

注:

以上支持数据源范围,仅以V11版本为准,其他版本的支持情况,请移步对应版本的Wiki。

  1. 某些数据源以Kerberos方式验证登录,当前已全部支持。详情请参考 Kerberos/other驱动
  2. 若需自定义业务数据源的驱动版本,详情请参考  自定义驱动
  3. 以下数据源未内置驱动,请先放置驱动同 自定义驱动,重启引擎再尝试执行:达梦8、hive、Kylin(麒麟)、Impala、oceanbase、Aliyun MaxCompute、Rapids(博睿)、Doris、ArgoDB。
  4. 由于doris使用的是mariadb的驱动,且要自定义放置驱动包,所以引擎端需要按照自定义放置步骤,把驱动放在conf\lib\maria目录下,并重启引擎进程。另外厂商提供的mariadb的驱动无法兼容mariadb数据库,所以doris和mariadb无法同时运行, 除非厂商能另外提供兼容版驱动。

2. 输入/输出

输入

没有输入端口。
输出只有一个输出端口,用于输出数据到下一节点资源。

3. 参数配置

设置关系数据源的参数:

设置说明如下:

参数

说明

关系数据源表 *从已经连接配置好的关系数据源中选择一张用于抽取数据的表。必填。
输出字段

默认抽取所有字段数据。如果数据量特别大,而表中很多字段又没有用处,建议在这里只选择需要的字段,其他无用字段删除,可以有效提高数据抽取速度。

过滤条件

默认抽取所有数据。可以在这里设置过滤条件,只抽取满足条件的部分数据。如果需要增量抽取数据,必须利用此功能,在“过滤条件”中可以使用“参数管理”中配置的参数,从而控制动态的数据过滤条件。

分区设置把表数据相对平均分成多个分区,抽取程序会尽可能一个分区分配一个线程进行并行抽取,能够极大的提高大数据量情况下的数据抽取性能。详情请参考 分区设置 。
优化参数

用于配置 JDBC 读取数据时的 connection 以及 fetchsizes 等属性。

Image Modified

QUERY_JDBC_FETCHSIZE 为引擎内读取一次数据的批次( jdbc的 fetchsize 可以参考网上类似的文档说明 jdbc_fetchsize 说明 )、对性能有较大影响,若需要根据数据库不同环境配置 JDBC 连接属性,需要带上 connprop. 前缀(注意后面有 . 并大小写严格区分)。

分区设置
分区设置

4. 分区设置

把表数据相对平均分成多个分区,抽取程序会尽可能一个分区分配一个线程进行并行抽取,能够极大的提高大数据量情况下的数据抽取性能。这里关键在于如何把表数据相对平均分成多个分区,具体按照下面步骤进行:

...