数据挖掘-PrefixSpan

PrefixSpan（PrefixSpan算法的全称是Prefix-Projected Pattern Growth，即前缀投影的模式挖掘）算法也是关联算法，跟FP-Growth的频繁项集模式不同，它是挖掘频繁序列模式的，因此要解决的问题目标稍有不同。

PrefixSpan简介

基于GSP算法的瓶颈，2004年，韩家炜等人提出了PrefixSpan ( 前缀投影序列模式挖掘）算法，是一种不产生候选频繁序列的算法，并且通过后续的一些工程优化，也可以达到不多次扫描数据库的效果。如下图所示序列数据，它是由若干数据项集组成的序列。比如第一个序列<a(abc)(ac)d(cf)>,它由a,abc,ac,d,cf共5个项集数据组成，并且这些项有时间上的先后关系。对于多于一个项的项集我们要加上括号，以便和其他的项集分开。

应用场景

PrefixSpan应用于购物篮分析、自然灾害的预测、DNA序列分析、疾病诊断等诸多领域。

应用示例

示例数据PrefixSpanData.xlsx

1、读取数据

查看输出

2 、聚合操作，统计每一个ID，不同日期购买物品清单

聚合配置

查看输出

3、排序操作，根据ID和购买日期对数据进行升序排序

4、聚合操作，统计每一个ID的购买物品清单

查看输出

5、PrefixSpan预测，拖入PrefixSpan节点，配置参数，标签选择上一步生产的集合列。

输出结果

序号	概念		定义	说明
1	最小支持度		它表示一个序列模式出现的最小频率，只有满足该阈值的序列模式才会被视为频繁模式。	这个参数可以控制挖掘结果的规模和质量。
2	最大序列长度		它指定了要挖掘的序列模式的最大长度。	较长的模式可能更具有代表性，但计算成本也更高。

页面树结构

PrefixSpan简介

应用场景

应用示例

相关概念

关注我们

服务支持