引擎配置页面如下:
各设置项说明如下:
序号 | 名称 | 说明 |
---|---|---|
1 | 引擎服务端口 | 配置项“引擎地址”所使用的通信端口。 |
2 | 最大运行流数 | 实验引擎同时允许最大运行的流数量。 |
3 | 最大等待流数 | 实验引擎同时允许最大等待的流数量。 |
4 | 引擎高可用时连接zookeeper地址 | ip:port格式,若有多个zookeeper节点则为ip1:port1,ip2:port2,ip3:port3 使用逗号分隔 |
5 | 引擎高可用设置,默认为不可用 | 设置实验引擎为高可用,默认为false(不可用)。 |
6 | 引擎agent超时时间(单位:毫秒) | 设置引擎agent超时时间(单位:毫秒)。 |
7 | 系统api地址 | 实验引擎访问Smartbi的api地址。 |
8 | 节点数据是否存储 | 实验引擎的节点运行的数据是否进行存储到本地。 |
9 | 节点数据是否计数 | 节点数据是否进行条数统计。 |
10 | 节点数据目录 | 指定节点数据的存储目录。 |
11 | 节点日志目录 | 保存实验引擎运行时产生的日志目录。 |
12 | 节点数据存储行数 | 保存拖拽过程中etl节点,特征工程节点,算法节点运行时预览的数据行数。 |
13 | python插件存储目录 | 指定python插件的存储目录,使用绝对路径。 |
14 | java插件jar包存储目录 | 指定java插件的存储目录,使用绝对路径。 |
15 | 节点数据hdfs存储目录 | 使用webhdfs接口,默认使用webhdfs://enginecluster。 |
16 | 节点数据hdfs访问控制列表 | 控制节点数据hdfs的访问权限。 |
17 | clickhouse回退是否启用事务(关系目标源) | 控制关系目标源选择clickhouse执行回退时的执行策略 |
18 | 是否启用clickhouse-client写入数据(关系目标源) | 控制 clickhouse数据写入模式 (true:使用client模式,大数据量写入性能提升 false:使用默认JDBC) |
19 | clickhouse-client启动阈值(目标数据:行 * 列, 单位:万) | 指定启用client模式阈值,待插入数据大于此阈值后执行client模式 (当参数18为true,此参数才生效) |
计算节点配置
计算节点页面如下:
各设置项说明如下:
序号 | 名称 | 说明 |
---|---|---|
1 | master(运行模式配置(1.单机模式:local[*], 2.集群模式: spark://ip:7077)) | 要连接的集群管理器 |
2 | executor.instances(executor数量) | 执行器的实例个数 |
3 | executor.cores(executor分配cpu个数) | 执行器申请的cpu核数 |
4 | cores.max(分配给引擎的最大cpu个数) | 应用程序的最大CPU内核数量 |
5 | submit.deployMode(提交模式) | park驱动程序的部署模式,可以是“客户端”或“集群”,这意味着可以在群集中的一个节点上本地(“客户端”)或远程(“集群”)启动驱动程序 |
6 | driver.memory(driver内存使用量) | 驱动程序内存设置 |
7 | executor.memory(executor内存使用量) | 执行器的内存设置 |
8 | driver.maxResultSize(driver能接收的最大数据集) | 返回给驱动程序的最大结果集设置 |
9 | executor.extraJavaOptions(executor启动的jvm参数) | 执行器的额外jvm设置 |
10 | driver.allowMultipleContexts(是否允许多个sparkcontext) | 是否允许多个context上下文 |
11 | sql.broadcastTimeout(广播超时时间(单位:秒)) | 广播连接中的广播等待时间以秒为单位超时 |
12 | sql.autoBroadcastJoinThreshold(broadcastjoin大小) | 配置在执行连接时将广播到所有工作节点的表的最大大小(以字节为单位)。通过将 此值设置为-1,可以禁用广播 |
13 | sql.shuffle.partitions(shuffle的并行度) | 配置混洗连接或聚合数据时要使用的分区数 |
14 | shuffle.file.buffer(shuffle的缓存大小) | 用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小 |
15 | local.dir(executor缓存目录) | 用于Spark中“临时”空间的目录,包括映射输出文件和存储在磁盘上的RDD |
16 | driver.port(driver监听端口) | 用于与执行者和独立的Master通信 |
17 | ui.port(driver端ui端口) | 应用程序仪表板的端口,其中显示内存和工作负载数据。 |
18 | master.webui.port(master的webui端口) | 访问Spark的master节点的端口 |
19 | memory.fraction(storage+exection内存比例) | 配置当前的内存管理器的最大内存使用比例 |
20 | eventLog.enabled(日志聚集功能开关) | 是否记录Spark事件,这对于在应用程序完成后重建Web UI很有用 |
21 | sql.caseSensitive(sql大小写敏感) | sql是否区分大小写 |
22 | rpc.message.maxSize(每个分区允许节点间传输的数据最大值(单位M)) | Spark每个分区允许节点间传输的数据最大值 |