页面树结构
转至元数据结尾
转至元数据起始

PrefixSpan(PrefixSpan算法的全称是Prefix-Projected Pattern Growth,即前缀投影的模式挖掘)算法也是关联算法,跟FP-Growth的频繁项集模式不同,它是挖掘频繁序列模式的,因此要解决的问题目标稍有不同。

PrefixSpan简介

基于GSP算法的瓶颈,2004年,韩家炜等人提出了PrefixSpan ( 前缀投影序列模式挖掘)算法,是一种不产生候选频繁序列的算法,并且通过后续的一些工程优化,也可以达到不多次扫描数据库的效果。如下图所示序列数据,它是由若干数据项集组成的序列。比如第一个序列<a(abc)(ac)d(cf)>,它由a,abc,ac,d,cf共5个项集数据组成,并且这些项有时间上的先后关系。对于多于一个项的项集我们要加上括号,以便和其他的项集分开。

应用场景

PrefixSpan应用于购物篮分析、自然灾害的预测、DNA序列分析、疾病诊断等诸多领域。

应用示例

示例数据PrefixSpanData.xlsx

1、读取数据

  查看输出

2 、聚合操作,统计每一个ID,不同日期购买物品清单

聚合配置

查看输出

3、排序操作,根据ID和购买日期对数据进行升序排序

4、聚合操作,统计每一个ID的购买物品清单

查看输出

5、PrefixSpan预测,拖入PrefixSpan节点,配置参数,标签选择上一步生产的集合列。

输出结果

相关概念


序号

概念

定义

说明

1最小支持度它表示一个序列模式出现的最小频率,只有满足该阈值的序列模式才会被视为频繁模式。这个参数可以控制挖掘结果的规模和质量。

2

最大序列长度

它指定了要挖掘的序列模式的最大长度。

较长的模式可能更具有代表性,但计算成本也更高。