background image

http://www.paper.edu.cn 

- 1 -

 

关联规则在化妆品销售分析中的应用 

陆召连 

辽宁工程技术大学研究生学院,辽宁兴城(125105) 

E-mail:

luzhaolian2006@sohu.com

 

摘  要:首先对关联规则和核心算法 Apriori 进行了描述,然后通过研究某公司的销售数据
的关联度,展示了 Apriori 算法在商品关联性分析中的具体运用,提出了适用于化妆品零售
的相关性分析模型。通过商业检验,该算法可以显著提高相关商品的销售额。 
关键词:数据挖掘,关联规则,Apriori 算法,销售分析 
 

1. 引言 

各种大型超市的出现,条形码的使用,生成大量的销售数据,这些数据中蕴含了大量关

于客户和商品的知识。在当前竞争激烈的环境下,分析这些数据,可以了解用户的购买习惯,

以及所购买物品之间的关联关系。从而商家可以利用这些信息做市场策划,布置商品陈列,

开展捆绑销售、打折等促销活动,为客户提供更好的服务。数据挖掘就是这样一种技术:能

够从大量的数据中分析出隐藏于其中的一些规律和模式。零售业的销售数据有其自身的特

点,是以项目集的形式存在,这就决定了关联规则挖掘必然会广泛应用于此领域。 

关 联 规 则

[1]

挖 掘 就 是 挖 掘 所 有 支 持 度 和 置 信 度 分 别 大 于 等 于 预 定 的 最 小 支 持 度

Min-Support 和最小可信度 Min-Confidence 的规则。 

本文结合实例运用关联规则挖掘算法对零售店的销售数据进行分析研究,找出了其中的

规律和模式。 

2. 关联规则基础知识 

关联规则表示数据库中一组对象之间某种关联关系的规则。例如,关联规则可以表示为

“购买了项目 A 和 B 的顾客中有 95%的人又买了 C 和 D”。从这些规则可找出顾客购买行
为模式,应用于商品货架设计、生产安排、针对性的市场营销活动以及产品的组合销售等。

关联规则由 R.Agrawal 等人于 1993 年首先提出,随即引起了广泛的关注。许多研究者(包
括 R.Agrawal 本人)对关联规则挖掘问题进行了深入的研究,对最初的关联规则挖掘算法进
行了改进和扩展。 

2. 1 关联规则的描述 

设 I={i

1

,i

2

,…,i

m

}是项的集合,其中的元素称为项(item)。记 D 为交易 T 的集合,这

里交易 T 是项的集合,并且

T

I

。对应每一个交易有唯一的标识,如交易号(TID)。设 X

是一个 I 中项的一个集合,如果

X

T

,那么称交易 T 包含 X 

[2]

。 

一个关联规则是形如

X

Y

的蕴涵式,这里

X

I

Y

I

,并且

X

Y

= Φ

I

。规则

X

Y

在事物数据库 D  中的支持度(support)是事物集中包含 X 和 Y 的事物数与所有事物

数之比,记为

(

)

sup port X

Y

,即 

(

)

sup

{ :

,

}

port X

Y

T X

Y

T T

D

D

=

U

 

规则 X=>Y 在事物集中的可信度(confidence)是指包含 X 和 Y 的事务数与包含 X  的事物

数之比,记为

(

)

confidence X

Y

,即: