第56页,共108页。 显示 1,077 条结果 (0.027 秒)
3、部署Hadoop集群
,建议在安装前关闭防火墙。使用过程中,为了系统安全可以选择启用防火墙,但必须启用服务相关端口。 1.关闭防火墙 临时关闭防火墙(立即生效) systemctl stop firewalld 永久关闭防火墙(需重启后生效) systemctl disable firewalld 查看防火墙状态 systemctl status firewalld 2.开启防火墙 相关服务及端口对照表: 服务名 需要开放端口 Hadoop 9864,9866,9867,9868,9870,9000 如果确实需要打开防火墙安装,需要给防火墙放开以下需要使用到的端口 开启端口Excel融合分析-工具栏介绍
缓存 用于清空缓存,提高excel插件端性能。 性能 默认加载100行 Excel“刷新数据”的执行数据集查询结果只返回前100行数据。 Web端显示优化 Web端自动隐藏原始数据sheet页,优化web端性能。可右键任意sheet名,点击web端显示优化更改。 云图 … 导入到高速缓存库或关系数据源中。 帮助 帮助 打开帮助文档。 关于 查看电子表格插件版本。 更新 检测电子表格插件版本,查看是否需要更新。 反馈 向思迈特发送邮件,反馈信息。 转换 自动转换数据模型数据集到私有查询数据集。数据挖掘-行选择
概述 行选择是根据不同的筛选或者删除条件,选择不同数量的行。 image2020-5-22 14:44:3.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出行选择的结果。 参数设置 设置行选择的参数: image2020-5-22 14:49:39.png 设置说明如下: 参数 说明 过滤与筛选 1、支持三种方式进行筛选: 根据行号筛选:输入正整数或负整数,分别代表TopN和BottomN。 根据行号区间筛选:输入两个正整数,代表区间行。 根据条件筛选:从左至右依次分别为数据挖掘 – LSH
度匹配。 输入/输出 输入 没有输入端口。 输出 一个输出端口,与抽取、变换节点组合使用。 参数设置 参数名称 说明 备注 相似度计算方法 相似度距离度量 欧式距离和杰卡德距离 哈希存储桶的长度 每个哈希表内的哈希桶数据挖掘-行选择
概述 行选择是根据不同的筛选或者删除条件,选择不同数量的行。 image2020-5-22 14:44:3.png 10.5.15版本后,左侧资源树不再显示行选择节点,但是旧的行选择节点仍能正常使用,建议使用最新的行过滤节点完成行选择操作。 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出行选择的结果。 参数设置 设置行选择的参数: image2020-5-22 14:49:39.png 设置说明如下: 参数 说明 过滤与筛选 1、支持三种方式进行筛选: 根据行号筛选:输入数据挖掘-高维数据可视化
概述 将数据用图形展示(散点图/平行坐标图),实现对数据或结果可视化分析。 散点图常用在因变量随自变量而变化的趋势,进而找到变量之间的函数关系。 平行坐标图常用在反映变化趋势和各个变量间相互关系,它具有良好的数学基础,其射影几何解释和对偶特性使它很适合用于可视化数据分析。 输入/输出 输入 一个输入端口,用于接收数据集。 输出 没有输出端口,允许可视化查看分析结果。 参数设置 参数名称 说明 备注 选择列 用于选择需要绘制图形的字段列 必填 采样比例 用于对输入数据按比例进行抽样,抽样结果用于绘图数据挖掘-分词
概述 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。它是对句子进行精确分词,在词库中进行搜索匹配,将句子根据匹配的结果分成那些常见的词组或者单词。常用于做文本挖掘分析。 输入/输出 输入 一个输入端口,用于接收数据集 输出 一个输出端口,用于输出分词后的结果。 参数设置 参数名称 说明 备注 字段选择 选择需要分词的字段列(必须是文本型字段) 必填 自定义词典 说明:按行填写词列表,每行一词,最多支持一万词。 支持两种方式输入自定义词: 手动输入,每行填写一个自定义词数据挖掘-OneHot编码
概述 OneHot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。它是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,其它都是零值,它被标记为1。(即:标记位置为1,其他位置为0)我们编码后的结果是一个稀疏向量,稀疏向量就是有特征数量,特征索引和特征值组成。 image2020-9-11_16-15-16.png 输入/输出 输入 没有输入端口。 输出 一个输出端口,用于接入下一个节点,与抽取节点组合使用。 参数设置 参数名称 说明 备注 新增列后缀数据挖掘-WOE编码
概述 WOE编码是评分卡模型常用的数据处理步骤,用于对所选特征值进行WOE编码,并计算IV值,且可根据IV值做特征选择。 输入/输出 输入 一个输入端口,用于接收需要进行WOE编码的数据集。 输出 两个输出端口,输出1是用于输出WOE编码转换后的数据集,输出2是WOE编码模型。 参数设置 参数名称 说明 备注 选择列 用于选择进行异常值处理设置的字段。 31.png 必填(特征列中不能含有null) 分箱方式 分位数分箱:根据设置的数值算出对应的分位数,按照算出的分位数对字段进行分箱。 自定义数据挖掘-PSI评估
概述 对离散特征稳定性进行评估,在支持评分卡模型应用后,PSI评估可以对模型效果进行评估。 image2020-9-1_16-27-13.png 输入/输出 输入 两个输入端口,一个为在模型训练预测过程中的评分卡模型预测结果,一个为利用评分卡模型在实际生产中产生的评分卡数据集;两个数据集均需通过离散化处理。 输出 没有输出端口。 参数说明 设置PSI评估的参数: image2020-9-1_16-45-45.png 设置说明如下: 参数名称 说明 备注 选择特征列 用于选择特征列的变量,结果显示每个特征或分数