执行引擎

引擎配置页面如下：

各设置项说明如下：

序号	名称	说明
1	引擎服务端口	配置项“引擎地址”所使用的通信端口。
2	最大运行流数	实验引擎同时允许最大运行的流数量。
3	最大等待流数	实验引擎同时允许最大等待的流数量。
4	引擎高可用时连接zookeeper地址	ip:port格式，若有多个zookeeper节点则为ip1:port1,ip2:port2,ip3:port3 使用逗号分隔
5	引擎高可用设置,默认为不可用	设置实验引擎为高可用，默认为false（不可用）。
6	引擎agent超时时间(单位:毫秒)	设置引擎agent超时时间(单位:毫秒)。
7	系统api地址	实验引擎访问Smartbi的api地址。
8	节点数据是否存储	实验引擎的节点运行的数据是否进行存储到本地。
9	节点数据是否计数	节点数据是否进行条数统计。
10	节点数据目录	指定节点数据的存储目录。
11	节点日志目录	保存实验引擎运行时产生的日志目录。
12	节点数据存储行数	保存拖拽过程中etl节点，特征工程节点，算法节点运行时预览的数据行数。
13	python插件存储目录	指定python插件的存储目录，使用绝对路径。
14	java插件jar包存储目录	指定java插件的存储目录，使用绝对路径。
15	节点数据hdfs存储目录	使用webhdfs接口，默认使用webhdfs://enginecluster。
16	节点数据hdfs访问控制列表	控制节点数据hdfs的访问权限。
17	clickhouse回退是否启用事务（关系目标源）	控制关系目标源选择clickhouse执行回退时的执行策略
18	是否启用clickhouse-client写入数据（关系目标源）	控制 clickhouse数据写入模式（true：使用client模式，大数据量写入性能提升 false：使用默认JDBC）
19	clickhouse-client启动阈值（目标数据：行 * 列, 单位：万）	指定启用client模式阈值，待插入数据大于此阈值后执行client模式（当参数为true，此参数才生效）
20	关系数据源 fetchSize	关系数据源节点，读取数据时默认使用的 fetchSize
21	关系目标源 batchSize	关系目标源节点，写入数据时默认使用的 batchSize

计算节点配置

计算节点页面如下：

各设置项说明如下：

序号	名称	说明
1	master(运行模式配置(1.单机模式:local[*], 2.集群模式: spark://ip:7077))	要连接的集群管理器
2	executor.instances(executor数量)	执行器的实例个数
3	executor.cores(executor分配cpu个数)	执行器申请的cpu核数
4	cores.max(分配给引擎的最大cpu个数)	应用程序的最大CPU内核数量
5	submit.deployMode(提交模式)	park驱动程序的部署模式，可以是“客户端”或“集群”，这意味着可以在群集中的一个节点上本地（“客户端”）或远程（“集群”）启动驱动程序
6	driver.memory(driver内存使用量)	驱动程序内存设置
7	executor.memory(executor内存使用量)	执行器的内存设置
8	driver.maxResultSize(driver能接收的最大数据集)	返回给驱动程序的最大结果集设置
9	executor.extraJavaOptions(executor启动的jvm参数)	执行器的额外jvm设置
10	driver.allowMultipleContexts(是否允许多个sparkcontext)	是否允许多个context上下文
11	sql.broadcastTimeout(广播超时时间(单位:秒))	广播连接中的广播等待时间以秒为单位超时
12	sql.autoBroadcastJoinThreshold(broadcastjoin大小)	配置在执行连接时将广播到所有工作节点的表的最大大小（以字节为单位）。通过将此值设置为-1，可以禁用广播
13	sql.shuffle.partitions(shuffle的并行度)	配置混洗连接或聚合数据时要使用的分区数
14	shuffle.file.buffer(shuffle的缓存大小)	用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小
15	local.dir(executor缓存目录)	用于Spark中“临时”空间的目录，包括映射输出文件和存储在磁盘上的RDD
16	driver.port(driver监听端口)	用于与执行者和独立的Master通信
17	ui.port(driver端ui端口)	应用程序仪表板的端口，其中显示内存和工作负载数据。
18	master.webui.port(master的webui端口)	访问Spark的master节点的端口
19	memory.fraction(storage+exection内存比例)	配置当前的内存管理器的最大内存使用比例
20	eventLog.enabled(日志聚集功能开关)	是否记录Spark事件，这对于在应用程序完成后重建Web UI很有用
21	sql.caseSensitive(sql大小写敏感)	sql是否区分大小写
22	rpc.message.maxSize(每个分区允许节点间传输的数据最大值(单位M))	Spark每个分区允许节点间传输的数据最大值

关注我们

服务支持

页面树结构

执行引擎

引擎配置

计算节点配置