background image
频繁模式指的是在数据集中频繁出现的一类模式。频繁项集指的是由包含某
一类频繁模式的元素组成的集合。因此,频繁模式挖掘也常被叫做频繁项集挖掘。
购物篮分析(或是亲密性分析)是介绍频繁模式挖掘的最佳案例,它是众所
周知的频繁模式挖掘应用之一。购物篮分析试图从消费者加入购物篮的商品中挖
掘出某种模式或者关联,可以是真实的购物篮,也可以是虚拟的,并且给出支持
度或是置信度。这一方法在用户行为分析中存在巨大的价值。
将购物篮分析推而广之就成了频繁模式挖掘,实际上它与分类非常类似,只
是通过相互的关联来预测属性或是属性的组合(不仅仅是预测类别)。因为关联
不需要预标记类别标签,所以它属于非监督式学习。
置信度、支持度和关联规则
如果我们把所有的物品都看作是我们集合中的一个元素(或是商店售卖的所
有商品,或是用于欺诈检测分析的所有交易记录),那么每个元素可以用一个布
尔值表示,表示该元素是否出现在某个特定的“篮子”里。每个篮子就是一个布
尔值的向量,而向量的长度由集合的大小决定。所有可能的向量组成的矩阵就是
一个数据集。