第238页,共487页。 显示 4,870 条结果 (0.591 秒)
数据挖掘-停用词处理
概述 停用词处理是由于有些词频很高,但对文章却没有太多意义的语气词和助词等等,比如这、我、你们、吗等等,对这些词进行去掉处理以便能够更好的分析语义。常用于关键词提取分析。 输入/输出 输入 一个输入端口,用于需要过滤停用词的字段。 输出 一个输出端口,用于输出去掉停用词之后的结果。 参数设置 参数名称 说明 备注 字段选择 选择需要去除停用词的列 必填 停用词列表 在对话框填写停用词,每行填写一个停用词 必填 示例 使用“深圳企业信息”示例数据,选择分词后去除停用词的列(企业名称视图选择
视图是指对多维分析定制或浏览中被划分出来的区域元素和报表构成元素。 视图选择功能可以实现用户任意定制多维分析显示的区域元素和构成元素。单击工具栏中的 视图 按钮,弹出视图下拉菜单,多维分析浏览和定制时,允许用户选择的视图有区别: 浏览界面:显示表头、显示表尾、显示参数面板、显示表格、显示图形。 2022-02-10_14-08-19.png 定制界面:显示表头、显示表尾、显示参数面板、显示表格、显示图形、显示资源区、显示查询面板、显示属性区。多维探索定制界面和多维分析定制界面稍有不同,如下图: 2022-02-10_14-12-30.png2022-02-10_14-13-49.png资源排序
用户选择父节点,可以针对父节点下的子节点进行排序设置,比如对目录下的资源进行排序,对参数节点下的目录和参数进行排序,对数据集下面的字段进行排序等等。 目前产品支持报表和目录混排。 操作入口 选中父节点,右键选择 排序 按钮,弹出排序对话框。 136.png 操作步骤 (1)在排序窗口中,每个资源前会有一个序号表示该资源的位置 137.png (2)右侧按钮有:上移至顶、上移、下移至底、下移。可选中资源之后,点击相应按钮移动资源 138.png (3)也可以直接在右侧输入框中输入序号,点击下方的按钮,直接将资源移动到对应的位置 139.png 效果如下: 140.png数据挖掘-特征选择
概述 特征选择的作用是从数据集中选取有用特征,用于分类预测或者回归预测算法的训练; 其中:标签列必选,但是只有分类回归预测算法才需要选择标签列,聚类训练时则不需要选择标签列。当与特征节点组合使用时则不需要选择标签列。 输入/输出 输入 一个输入端口,用于接收前置节点传下来的数据集。 输出 一个输出端口,用于输出接收到的数据集。 参数设置 参数名称 说明 备注 选择特征列 用于选择做为特征列的字段 必填 选择标签列 用于选择做为标签列的字段 分类、回归算法必填、聚类算法及组合使用不需要选择 示例 特征选择中属性区
用于设置数据集相关资源的属性。它主要包含两个部分:数据集输出区和属性面板。 image2019-10-29 15:54:7.png 数据集输出区:该区显示所有可视化数据集级别的相关资源,如:输出字段、计算字段、私有参数、输出参数、告警设置、多查询,并通过相应的右键菜单对这些资源进行管理。该区通常与“属性面板”结合起来用于对这些资源的属性进行管理。 @self 属性面板:该区需要与“工作区”结合使用,单击工作区中的任一资源,即在属性面板中列出该资源的相关属性信息。用户可以在属性面板中重新设置资源的相关属性。数据挖掘-词袋
概述 词袋是为了对句子进行分词,根据分隔符将句子分割开来,分成一个个独立的词语或者单词。常用于英文文本分割语句。 输入/输出 输入 一个输入端口,用于接收数据集 输出 一个输出端口,用于输出分隔后的结果 参数设置 参数配置 说明 备注 选择文本项 选择需要分割的文本列 必填 分隔符 输入指定的分隔符 必填 示例 使用“垃圾短信识别”数据,选择需要分割的文本列,设置”/”分隔符进行分割,输出结果如下图: image2020-6-4 11_11_16.png 词袋数据挖掘-停用词处理
概述 停用词处理是由于有些词频很高,但对文章却没有太多意义的语气词和助词等等,比如这、我、你们、吗等等,对这些词进行去掉处理以便能够更好的分析语义。常用于关键词提取分析。 输入/输出 输入 一个输入端口,用于需要过滤停用词的字段。 输出 一个输出端口,用于输出去掉停用词之后的结果。 参数设置 参数名称 说明 备注 字段选择 选择需要去除停用词的列 必填 停用词列表 在对话框填写停用词,每行填写一个停用词 必填 示例 使用“深圳企业信息”示例数据,选择分词后去除停用词的列(企业名称存储过程预览数据报错:Data Duration
(本文档仅供参考) 问题现象 存储过程数据集点击预览数据集,报错:获取总行数sql错误,Data Duration,而通过参数筛选缩小选择范围,则成功查询。 image2021-4-9_13-59-47.pngimage2021-4-9_14-0-1.png 问题原因 部分数据长度范围超过了数据库表字段设定的长度限制。 解决方案 排查查询的数据是否在数据库表字段的长度范围内,若数据量较大,建议可通过二分法或者添加参数值过滤的方式锁定有问题的数据范围,加大字段长度或更改有问题的数据,确保数据长度不超过字段长度即可解决此问题。功能使用
实现数据驱动的业务决策。 AIChat前端主要分为如下6个区域:辅助功能区、创建对话区、我的收藏区、历史对话区、对话区、数据模型展示区。 worddava273a3b9a08c7152ad352d8ee004779d.png 2.1.2.1 辅助功能区 辅助功能区位于操作界面的左侧,为用户提供一系列辅助工具和设置 … 的结果,用户可点击相关问题,在对话区快速复原结果查看。用户也可通过问句后方的按钮 worddav1ffb6249d783e4ffc7ebf65cdca882da.png worddav4455164c5e8856839286d7ac5e7114b7.png ,为问句定义容易识别的别名或者从历史对话中删除和收藏改问句自助数据集抽取mysql数据出现服务器无响应
(本文档仅供参考) 问题说明 使用smartbi高性能版本部署的mpp和smartbi,再使用smartbi进行mysql抽数过程中,数据量2000W,smartbi直接内存很快上到一个临界点,导致服务器出现无响应的现象。 解决方案 这是因为进行mysql大数据量抽取的时候,需要在JDBC的连接上添加 useCursorFetch=true&defaultFetchSize=10000 参数,具体如下: image2018-11-15 17:38:32.png v856新版本也在数据源设置上增加了设置项,直接勾选后就会在连接字符串上添加对应的参数