数据挖掘-逻辑回归

概述

逻辑回归是一种分类算法，它进行分类的主要思想是：根据现有数据对分类边界线建立回归公式（寻找到最佳的拟合直线），以此进行分类。简单来说，它就是利用Logistic函数拟合数据来预测某一个事件发生的概率。

该算法可用于二元及多元分类问题，是分类算法的经典算法。对于二分类问题，算法输出一个二元逻辑回归模型。对于多分类问题，算法会输出一个多维逻辑回归模型。

示例

使用“银行零售客户流失”案例数据，包含17个特征列和1个二类的目标标签。需要对银行客户预测是否流失。通过数据预处理及模型训练，如下图：

其中，特征离散是将年龄、卡龄等数据离散化，是为了提高模型的准确度，提高运行速度。

逻辑回归的参数如下：

参数名称	值	说明
归一化	正则化	详情请参考归一化介绍说明。
	标准化
	最小最大值归一化
	最大绝对值归一化
最大迭代数	参数范围为：>=0的整数，默认值为10	算法的最大迭代次数，达到最大迭代次数即退出。最大迭代次数的值越大，模型训练更充分，但会耗费更多时间。
混合参数	参数范围为：[0,1]的数，默认值为0	控制惩罚类型，平方误差损失函数中的 ρ，参数范围为：[0,1]的数。其中：0表示L2惩罚，1表示L1惩罚，0~1表示L1和L2惩罚的结合。对模型系数惩罚（或称正则化）可减少模型过拟合。
正则参数	参数范围为：>=0的数，默认值为：0	正则项系数，损失函数中的。正则化可以解决模型训练中的过拟合现象；正则项系数越大，模型越不会过拟合。
收敛阈值	参数范围为：>=0的数，默认值为：0.000001	收敛误差值。收敛误差值，当损失函数取值优化到小于收敛阈值时停止迭代。
分类阈值	参数范围为：>=0的数，请用英文逗号隔开,且数量与分类数相同。默认值为：0.5。分类数按从0到标签的最大值计算。	在二进制分类中设置阈值thresholds。如果模型预测结果为分类标签1的估计概率>thresholds，则预测为1，否则为0。高阈值是鼓励模型更频繁地预测0，反之则预测为1。
自动调参设置	系统默认的各项参数值范围。	必须结合“启用自动调参”功能使用。系统将对设置指定或范围内的参数值循环调参，匹配出最优的组合。详情请参考自动调参设置。启用自动调参: 勾选该项，则系统自动调参数，不需要用户手工设置参数。

自动调参设置

系统将对设置指定或范围内的参数值循环调参，匹配出最优的组合。

自动调参的方式分为两种：

指定值调参：指定一个固定的值进行自动调参。
范围调参：在指定的范围内进行自动调参。

设置项说明如下：

设置项		说明
拆分比例		将选择的数据拆分为两部分，一部分部分用于模型的评估，另一部分数据用于训练模型。
评估标准		用于选择数据的评估指标，包括：f1、precision、recall、accuracy、AUC(二分类)。其中，评估标准“AUC(二分类)”仅对二分类问题生效。
参数		自动调参的参数项。
指定值调参	指定值	指定一个固定的值进行自动调参。需要先勾选“是否使用指定值”才能配置。
指定值调参	是否使用指定值	控制是否使用使用指定值进行调参。
范围调参	范围	设置自动调参参数的范围。若运行速度比较慢，可将参数范围调小一点。
范围调参	步数	进行范围调参时，在设置的范围内生成多少个参数值。示例： 1）范围为[3,5]，步数为3时，生成的参数值：3, 4, 5 2）范围为[40,100]，步数为4时，生成的参数值：40, 60, 80, 100

关注我们

服务支持

页面树结构

数据挖掘-逻辑回归

概述

示例

自动调参设置