前言
...
面板 | ||||||||
---|---|---|---|---|---|---|---|---|
| ||||||||
|
生活中的数据本身包含着各种联系,大数据的出现给我们带来了一种新的思维方式,那就是跳出先因后果的思维方式,用大量的数据统计结果去倒推原因,找到无关因素间的隐蔽联系,例如众人皆知的营销案例 "啤酒和尿布”。本文将介绍目前业界经典关联规则算法 FP-Growth,借助分析购物篮中商品数据,找出商品之间的关联关系,帮助用户挖掘出数据最大的价值,获得更大的经营收益。
FP-Growth 简介
...
FP-Growth(Frequent Pattern Growth)作为一种经典的关联规则算法,可以高效自动地从数据中挖掘出频繁集合,进而挖掘出潜在的关联规则,这些在企业营销决策的制定过程中具有重要的参考价值。另外,FP-Growth采用高级的数据结构,使其在大数据集上处理效率显著优于其他算法(Apriori),从而加快整个数据挖掘的过程。
应用场景
...
关联规则的挖掘算法,它是从交易数据商机中被开发出来,用于制定营销策略,典型应用是零售业的购物篮分析,为了找到交易数据中的伴随购买以及购买推荐关系链。
通过发现在交易数据库中不同商品之间的关联规则,找出顾客购买行为,指导企业进行科学的商业活动,例如采取特殊的市场推广活动或手段(给买了啤酒和尿布的客户打折)、货架设计(啤酒和尿布放在相邻位置)等,从而增加两种关联商品的销售量。
基础概念
...
关联规则的挖掘算法,典型应用是零售业的购物篮分析,挖掘交易数据中的伴随购买、购买推荐关系链等商机,有助于制定营销策略。
应用案例
(1)我们可以基于产品内置的购物清单数据,针对购物篮商品利用FP-Growth算法模型输出相关关联分析指标(频繁项集、频率、支持度),同时结合预测功能得出用户可能购买的物品,请点击购物篮分析查看示例详情。
(2)基于产品内置的实验案例 "购物篮分析",结合 关联规则生成 功能,也可轻松输出更详尽的关联分析指标(置信度、提升度、前项、后项等)。
相关概念
序号 | 概念 | 定义 | 说明 |
---|
...
业务意义 | ||||||
---|---|---|---|---|---|---|
1 | 频繁项集 | 频繁项集是指满足支持度最小阈值的所有项集。 | 项,是指我们分析数据中的一个对象;项集,就是若干项的项构成的集合,如集合{牛奶、麦片、糖}是一个3项集。 | 频繁项集表示频繁地并且同时出现在交易数据集中的商品的集合,可用于发现共现事项或者发现事物的热点信息 。 | ||
2 | 支持度 Support | 支持度是指几个频繁关联的数据在数据集中出现的次数占总数据集的比重。 | 假设数据集有 10 条记录,包含{‘牛奶’, ‘面包’}的有 5 条记录,那么{‘牛奶’, ‘面包’}的支持度就是 5/10 = 0.5。 |
...
频繁项集
...
支持度表示在关联规则中出现的频率,支持度高说明物品的需求量大。 | 在实际零售场景中,可通过支持度,置信度,提升度综合指标来看待商品组合,发现高价值关联商品,有助于提升客单价。 | |
3 | 置信度 |
...
Confidence |
...
置信度是指出现A后又出现B的条件概率,相当于A和B同时出现的概率占A出现概率的比值。 | 假设今天共有10笔订单,其中购买A的次数是8,同时购买A和B的次数是6,则其置信度是6/8=75%。 从关联规则的可信程度角度来看,“购买A的顾客又会购买B”这个商业推测,有75%的可能性是成立的。 | 置信度体现了衡量关联规则的可靠性,置信度高说明物品之间连带紧密。 |
4 |
...
关联规则
...
假设有关联规则如:{‘鸡蛋’, ‘面包’} -> {‘牛奶’},该规则的置信度是 0.9,意味着在所有买了鸡蛋和面包的客户中,有 90%的客户还买了牛奶。
...
提升度
...
提升度是指含有X的条件下同时含有Y的概率,与无论含不含X含有Y的概率之比。
...
它可以用来判断商品组合方式是否具有实际价值,当提升度大于1时,表明商品之间可能具有真正的关联关系,提升度越大,则商品之间的关联意义越大。
...
通俗来说,就是如果 A 发生了,那么 B 也很有可能会发生。
最小支持度 | 最小支持度作为支持度的阈值,满足最小支持度的项集才会输出 | 最小置信度、最小支持度只是在训练模型时起到筛选频繁项集的作用。 |
...
5 | 最小置信度 | 最小置信度作为置信度的阈值,满足最小置信度的项集才会输出 |
...
实践示例
使用“购物篮分析”案例数据,先根据训练集,训练出所有的频繁项,在对测试集进行频繁项预测,预测用户购买了物品1可能会购买物品2的可能性。
FP-Growth参数如下:
...
参数名称
...
值
...
说明
...
最小支持度
...
参数范围:[0,1]的小数,默认值为0.01
...
支持度,代表项集的频繁程度;最小支持度作为支持度的阈值,满足最小支持度的项集才会输出;
...
最小置信度
...
参数范围:[0,1]的小数,默认值为0.01
...
置信度,代表包含A事务中同时包含B事务的频繁程度;最小置信度作为置信度的阈值,满足最小置信度的项集才会输出;
例如:有以下项集
项集{牛奶,尿布,啤酒}的
1、支持度,
...