第89页,共561页。 显示 5,606 条结果 (0.04 秒)
infobright,数据集抽取后中文显示乱码
(此文档仅供参考) 问题描述 高速缓存库的数据类型为infobright,数据集抽取后中文显示乱码,如图: image2021-9-12_22-38-14.png 此问题凡涉及到需要抽取数据集的均会受影响,如:自助ETL中使用数据集作为数据源。 解决方案 检查高速缓存库的数据库字符集编码是否是latin1 … ://blog.csdn.net/lt200819/article/details/84476280 https://blog.csdn.net/lt200819/article/details/84476280 注意事项 如上图所示的test库,需确保用数据库管理工具检查的test库所在ip和端口与Smartbi数据挖掘-归一化
归一化是一种无量纲处理手段,使物理系数值的绝对值变成某种相对值关系。主要是为了数据处理方便提出来的,把数据映射到某个范围之内处理,更加便捷快速。 归一化实质是一种线性变换,线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,这些性质是归一化/标准化的前提。比如有一个很重要的性质:线性变换不会改变原始数据的数值排序。 一般需要用到归一化的算法有:支持向量机、梯度提升决策树、逻辑回归、梯度提升回归树、线性回归、K均值、高斯混合模型。 归一化数据挖掘-归一化
归一化是一种无量纲处理手段,使物理系数值的绝对值变成某种相对值关系。主要是为了数据处理方便提出来的,把数据映射到某个范围之内处理,更加便捷快速。 归一化实质是一种线性变换,线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,这些性质是归一化/标准化的前提。比如有一个很重要的性质:线性变换不会改变原始数据的数值排序。 一般需要用到归一化的算法有:支持向量机、梯度提升决策树、逻辑回归、梯度提升回归树、线性回归、K均值、高斯混合模型。 归一化数据集定义-私有参数
私有参数是只能用于当前数据集的参数。 私有参数和公共设置中的参数的区别在于,在数据集中创建或是导入的私有参数,只能用于当前数据集。 私有参数创建和修改的时参数的相关设置请参考 公共设置-参数定义 章节。 私有参数的添加包含两种方式:新建参数和导入参数。 image2019-10-29 16:17:33.png 新建参数 新建私有参数和新建参数功能类似,只是功能创建入口和使用范围不一致。 新建入口:在“数据集输出区”的“私有参数”节点下右键选择 新建参数,进入选择数据源窗口。 image2019-10-29 16:17:50.png 导入参数 私有参数不仅支持创建也支持从公共参数中导入。 功能入口:在“数据集⬝ MySQL知识库迁移至其它数据库
说明 Smartbi目前支持MySQL、HSQL、Oracle、DB2_V9、MS SQL Server、Sybase和kingbase 等类型的数据库作为知识库。 Smartbi默认使用MySQL作为知识库,可以通过知识库备份等操作,配置其他的数据库为知识库。 配置步骤 1、备份知识库 a)启动 … 。 3.png 2、建立新知识库 a) 在目标数据库中新建一个空的库,比如名称是Smartbi; b) 要求:所创建的数据库,必须支持中文字符集,比如GBK 或 UTF-8;另外要求分配给Smartbi连接这个库的用户,必须具有建表的权限,因为后面Smartbi会向这个空库中自动创建它所需要的表。 3、配置数据挖掘-随机森林
概述 随机森林指的是利用多棵树构成森林对样本进行训练并预测的一种分类器。但是每棵决策树之间没有关联,每棵树都是基于随机抽取的样本和特征进行独立训练。 随机森林算法广泛应用于分类问题。其是决策树的组合,将许多决策树联合到一起,以降低过拟合的风险。随机森林支持连续数据或离散数据进行二分类或多分类。 优势:可反映出特征重要性。 示例 使用“垃圾短信识别”案例数据,预测是否为垃圾短信。 image2020-6-5 16:22:21.png 其中,分词是为了将短信文本进行分成词语方便分析;停用词处理是为了去除不必要的词语、标点符号、语气词等;TF-IDF是为了计算文本数据的idf值,方便进入模型训练数据挖掘-特征工程
特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程中包括常见特征工程方法节点。 通过特征工程,能够最大限度地从原始数据中提取特征,以供算法和模型使用。 特征工程简介MySQL知识库迁移至其它数据库
说明 Smartbi目前支持MySQL、HSQL、Oracle、DB2_V9、MS SQL Server、Sybase和kingbase 等类型的数据库作为知识库。 Smartbi默认使用MySQL作为知识库,可以通过知识库备份等操作,配置其他的数据库为知识库。 配置步骤 1、备份知识库 a)启动 … 。 3.png 2、建立新知识库 a) 在目标数据库中新建一个空的库,比如名称是Smartbi; b) 要求:所创建的数据库,必须支持中文字符集,比如GBK 或 UTF-8;另外要求分配给Smartbi连接这个库的用户,必须具有建表的权限,因为后面Smartbi会向这个空库中自动创建它所需要的表。 3、配置数据挖掘-随机森林
概述 随机森林指的是利用多棵树构成森林对样本进行训练并预测的一种分类器。但是每棵决策树之间没有关联,每棵树都是基于随机抽取的样本和特征进行独立训练。 随机森林算法广泛应用于分类问题。其是决策树的组合,将许多决策树联合到一起,以降低过拟合的风险。随机森林支持连续数据或离散数据进行二分类或多分类。 优势:可反映出特征重要性。 示例 使用“垃圾短信识别”案例数据,预测是否为垃圾短信。 image2020-6-5 16:22:21.png 其中,分词是为了将短信文本进行分成词语方便分析;停用词处理是为了去除不必要的词语、标点符号、语气词等;TF-IDF是为了计算文本数据的idf值,方便进入模型训练数据挖掘-特征工程
特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程中包括常见特征工程方法节点。 通过特征工程,能够最大限度地从原始数据中提取特征,以供算法和模型使用。 特征工程简介