页面树结构
转至元数据结尾
转至元数据起始

针对挖掘实验的设置项,包括引擎配置和计算节点配置 。

引擎配置

引擎配置页面如下:

各设置项说明如下:

序号

名称

说明

1引擎服务端口 配置项“引擎地址”所使用的通信端口。
2最大运行流数实验引擎同时允许最大运行的流数量。
3最大等待流数实验引擎同时允许最大等待的流数量。
4引擎高可用时连接zookeeper地址ip:port格式,若有多个zookeeper节点则为ip1:port1,ip2:port2,ip3:port3 使用逗号分隔
5引擎高可用设置,默认为不可用设置实验引擎为高可用,默认为false(不可用)。
6引擎agent超时时间(单位:毫秒)设置引擎agent超时时间(单位:毫秒)。
7系统api地址实验引擎访问Smartbi的api地址。
8节点数据是否存储实验引擎的节点运行的数据是否进行存储到本地。
9节点数据是否计数节点数据是否进行条数统计。
10节点数据目录指定节点数据的存储目录。
11节点日志目录保存实验引擎运行时产生的日志目录。
12节点数据存储行数保存拖拽过程中etl节点,特征工程节点,算法节点运行时预览的数据行数。
13python插件存储目录指定python插件的存储目录,使用绝对路径。
14java插件jar包存储目录指定java插件的存储目录,使用绝对路径。
15

节点数据hdfs存储目录

使用webhdfs接口,默认使用webhdfs://enginecluster。
16节点数据hdfs访问控制列表控制节点数据hdfs的访问权限。
17clickhouse回退是否启用事务(关系目标源)控制关系目标源选择clickhouse执行回退时的执行策略
18是否启用clickhouse-client写入数据(关系目标源)

控制 clickhouse数据写入模式

(true:使用client模式,大数据量写入性能提升      false:使用默认JDBC)

19clickhouse-client启动阈值(目标数据:行 * 列, 单位:万)

指定启用client模式阈值,待插入数据大于此阈值后执行client模式

(当参数为true,此参数才生效)

20关系数据源 fetchSize关系数据源节点,读取数据时默认使用的 fetchSize 
21关系目标源 batchSize关系目标源节点,写入数据时默认使用的 batchSize

计算节点配置

计算节点页面如下:

各设置项说明如下:

序号

名称

说明

1master(运行模式配置(1.单机模式:local[*], 2.集群模式: spark://ip:7077))要连接的集群管理器
2executor.instances(executor数量)执行器的实例个数
3executor.cores(executor分配cpu个数)执行器申请的cpu核数
4cores.max(分配给引擎的最大cpu个数)应用程序的最大CPU内核数量
5submit.deployMode(提交模式)park驱动程序的部署模式,可以是客户端集群,这意味着可以在群集中的一个节点上本地(客户端)或远程(集群)启动驱动程序
6driver.memory(driver内存使用量)驱动程序内存设置
7executor.memory(executor内存使用量)执行器的内存设置
8driver.maxResultSize(driver能接收的最大数据集)返回给驱动程序的最大结果集设置
9executor.extraJavaOptions(executor启动的jvm参数)执行器的额外jvm设置
10driver.allowMultipleContexts(是否允许多个sparkcontext)是否允许多个context上下文
11sql.broadcastTimeout(广播超时时间(单位:秒))广播连接中的广播等待时间以秒为单位超时
12sql.autoBroadcastJoinThreshold(broadcastjoin大小)配置在执行连接时将广播到所有工作节点的表的最大大小(以字节为单位)。通过将
此值设置为-1,可以禁用广播
13sql.shuffle.partitions(shuffle的并行度)配置混洗连接或聚合数据时要使用的分区数
14shuffle.file.buffer(shuffle的缓存大小)用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小
15local.dir(executor缓存目录)用于Spark临时空间的目录,包括映射输出文件和存储在磁盘上的RDD
16driver.port(driver监听端口)用于与执行者和独立的Master通信
17ui.port(driver端ui端口)应用程序仪表板的端口,其中显示内存和工作负载数据。
18master.webui.port(master的webui端口)访问Spark的master节点的端口
19memory.fraction(storage+exection内存比例)配置当前的内存管理器的最大内存使用比例
20eventLog.enabled(日志聚集功能开关)是否记录Spark事件,这对于在应用程序完成后重建Web UI很有用
21sql.caseSensitive(sql大小写敏感)sql是否区分大小写
22rpc.message.maxSize(每个分区允许节点间传输的数据最大值(单位M))

Spark每个分区允许节点间传输的数据最大值

  • 无标签