需求分析
通过对某业务线条的高价值客群进行分析,发现流失率非常严重,需要建立高价值客群的流失预警模型,寻找客户流失的原因,指导业务加强客户维护,提高客户对我行产品的粘度。
工作目标
通过对零售客户某业务线条的高价值客群进行流失分析,建立流失预警模型,挖掘出流失的主要因子,指导业务人员维系客户关系。
分析思路
通过收集高价值客群的个人信息、账户类信息、交易类信息等维度数据,以及结合第三方数据,利用随机森林算法构建客户流失预警模型,并输出影响客户流失的主要因素。
实施过程
数据来源于CRM系统中客户基本信息表、账单表等;第三方数据,数据时间窗为近一年的数据,客群为高价值客群,本次案例已获取到部分数据总共100000条数据。
数据维度信息包含:
- 银行自有字段:账户类信息、个人类信息、存款类信息、消费、交易类信息、理财、基金类信息、柜台服务、网银类信息;
- 外部三方数据:外呼客服数据、资产类数据、其他消费类数据;
本次案例流失定义为:3个月内没有与银行业务任何往来的客户。
本案例只提取到部分特征字段仅供参考,字段说明如下:
字段名称 | 类型 | 字段说明 |
---|---|---|
客户id | 字符串 | |
年龄 | 整型 | |
卡龄 | 整型 | |
是否代发客户 | 整型 | |
月均代发金额 | 整型 | |
最多代发金额 | 整型 | |
性别 | 整型 | 取值为{0,1},0表示男,1表示女 |
月均AUM | 整型 | |
月初AUM | 整型 | |
卡等级 | 整型 | 取值[0,19],共有20个等级。 |
是否个贷 | 整型 | |
1年内购买理财 | 整型 | |
下载手机银行 | 整型 | |
是否领取APP权益 | 整型 | |
是否登录APP | 整型 | |
是否持有信用卡 | 整型 | |
是否关联还款 | 整型 | |
是否流失 | 整型 | 取值为{1,0},1表示流失,0表示未流失。 |
数据接入
在实验中添加 数据源 节点,将数据接入,部分数据输出结果如图:
数据探索
本案例数据探索是针对客户流失数据探索分析各特征分布情况以及相关性情况。我们接入一个 全表统计 节点对流失数据进行统计分布情况,如图:
通过全表统计分析发现年龄的最小值为10,按照常规而言未成年人无法办理银行信贷业务应该进行过滤处理。
我们通过 聚合 节点探索流失的整体数据分布情况,输出结果如图:
流失的男女比例输出结果如图:
分析发现客户流失数据和男女比例存在一个平衡的状态,分布比较合理。
我们再通过 过滤与映射 节点将流失的数据进行过滤,如图:
通过 聚合 节点查看男女的流失比例,输出结果如图:
数据预处理
通过数据探索分析中我们需要过滤出年龄>18的流失数据,如图:
我们根据特征选择出连续性特征字段进行 特征离散,方便模型的准确程度,如图所示:
变换后的结果默认添加后缀Buckerizer,如图所示:
整个数据预处理流程图:
相关性分析
我们通过相关性节点将各特征指标数据进行 相关性分析,方便特征选择进入模型训练,如图:
通过分析发现:是否代发客户、卡等级、月均代发金额、最多代发金额、月均AUM、月初AUM与是否流失都具有相关性,其他特征与是否流失相关性为0。
因此我们通过特征选择出具有相关的特征,如图所示,标签列为是否流失。
模型训练
本案例采样 随机森林 算法进行模型训练,通过 拆分 节点将数据按照比例7:3拆分成训练集和验证集。整个模型训练流程如图所示:
参数配置如图:
模型评估
我们通过 评估 节点对数据进行评估,如模型训练流程图所示,评估结果如图:
我们发现评估结果中F1得分为0.95,说明模型预测的效果比较好的。
业务分析
我们通过 随机森林特征选择 节点输出重要性较高的5个特征,结果如图:
通过对某业务线条高价值客群进行流失预警分析,发现影响客户流失的主要因素为:月均AUM、月初AUM、卡等级等。主要原因可能为产品缺乏竞争力、活动较少等。
因此,我们可以采取相关的措施建议,如:加强客户关系维系、产品跟进、维护访问、追踪制度、扩大销售、机制维护等。
总结
本案例结合银行客户流失数据预测案例,重点介绍了随机森林在实际案例中的应用。本案例通过客户的交易信息数据挖掘出对流失影响的信息,从而加强对客户的跟踪和营销,减少不必要的客户流失。