PrefixSpan(PrefixSpan算法的全称是Prefix-Projected Pattern Growth,即前缀投影的模式挖掘)算法也是关联算法,跟FP-Growth的频繁项集模式不同,它是挖掘频繁序列模式的,因此要解决的问题目标稍有不同。
PrefixSpan简介
基于GSP算法的瓶颈,2004年,韩家炜等人提出了PrefixSpan ( 前缀投影序列模式挖掘)算法,是一种不产生候选频繁序列的算法,并且通过后续的一些工程优化,也可以达到不多次扫描数据库的效果。如下图所示序列数据,它是由若干数据项集组成的序列。比如第一个序列<a(abc)(ac)d(cf)>,它由a,abc,ac,d,cf共5个项集数据组成,并且这些项有时间上的先后关系。对于多于一个项的项集我们要加上括号,以便和其他的项集分开。
应用场景
PrefixSpan应用于购物篮分析、自然灾害的预测、DNA序列分析、疾病诊断等诸多领域。
应用示例
1、读取数据
查看输出
2 、聚合操作,统计每一个ID,不同日期购买物品清单
聚合配置
查看输出
3、排序操作,根据ID和购买日期对数据进行升序排序
4、聚合操作,统计每一个ID的购买物品清单
查看输出
5、PrefixSpan预测,拖入PrefixSpan节点,配置参数,标签选择上一步生产的集合列。
输出结果
相关概念
序号 | 概念 | 定义 | 说明 | |
---|---|---|---|---|
1 | 最小支持度 | 它表示一个序列模式出现的最小频率,只有满足该阈值的序列模式才会被视为频繁模式。 | 这个参数可以控制挖掘结果的规模和质量。 | |
2 | 最大序列长度 | 它指定了要挖掘的序列模式的最大长度。 | 较长的模式可能更具有代表性,但计算成本也更高。 |