数据挖掘技术在汽车保险中的应用

【摘　　要】介绍数据挖掘中的关联规则挖掘技术在汽车保险中的实际应用，关联规则分
析汽车保险中的风险因素与赔付率之间的关系。得出的关联规则对车险行业的决策和发展有
一定参考指导意义。

　　【关键词】数据挖掘；关联规则；风险

　　一

.数据挖掘及关联规则介绍

　　数据挖掘（

Data　Mining，DM）又称数据库中的知识发现（Knowledge　Discover　in

Database，KDD），是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从
数据库大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人
们事先不知道的、但又潜在的有用信息和知识的过程。从商业企业的角度讲数据挖掘可以描
述为：按照企业既定业务目标，对大量的企业数据进行分析和探索，揭示隐藏的、未知的或
验证已知的规律性，并进一步将其模型化的先进有效的方法。数据挖掘是一种决策支持过程，
它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分
析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，
减少风险，做出正确的决策。

　　关联规则挖掘是数据挖掘中的重要课题和研究方法。最早是由　

Agrawal　等人提出的，

关联规则挖掘可以发现存在于数据库中的项目或属性间的隐含关系

[1]。关联规则的一般定

义如下：

I={I1，I2，

…，Im}是一项目集，D 是一事务数据库，D 中的每个事务 T 都是 I 的

子集即

∈I.每个事务都有一个标识符，称为 TID.若 A 是一项目集，当且仅当 A∈T 时，我

们就说事务

T 包含了 A。一条关联规则就是形如 A=>B 的蕴含关系。其中 A 包含于 I，B 包含

于

I 且 A

∩B 为空集.如果 D 中包含 A∪B 的比例是 s，就称关联规则 A=>B 在 D 中的支持度

为

s，也可以表示为概率 P（A

∪B）；如果 D 中包含 A 的同时也包含 B 的比例是 c，则说关

联规则

AB 的置信度为 c，表示为条件概率 P（B|A），就是：

s=sup（A=>B）=P（A

∪B）

c=conf（A=>B）=P（A|B）=sup（A

∪B）/sup（A）

　　给定事务集

D，挖掘关联规则问题就是发现所有支持度（sup）和置信度（conf）分别

满足最小支持度阈值和最小置信度阈值的规则。

　　关联规则挖掘的步骤

[2]

　　（

1）找出所有的频繁项集。这些项集出现的频率至少和预定义的最小支持数一样，即

所有满足最小支持度的项集的集合。

　　（

2）由频繁项集中产生相应的强关联规则。根据定义，这些规则必须满足最小支持度

和最小置信度。即确定规则

A=>B 是否有效，可以令：

r=sup（A

∪B）/sup（A），当且仅当 r>min_conf 时，规则有意义（其中 min_conf 为最

小置信度）。

　　（

3）解释并输出规则

　　步骤一是关联规则发现算法设计的核心问题，因为它的效率高低是算法的关键

　　由于

Apriori 关联规则算法[3]需要产生大量候选项集，资源消耗巨大，效率低。而 FP-

Growth 关联规则算法只需扫描一次数据库，　对系统资源的消耗较小，效率相对较高。因
此，对于海量数据的保险信息系统，本文选用

FP-Growth 算法进行关联规则挖掘.

　　二．关联规则挖掘在车辆保险中的应用

1.数据准备

　　数据准备是数据挖掘过程的先决条件，数据质量将直接影响数据挖掘的效率和准确度
以及最终规则的合理有效性。本文选取某大型保险公司省级公司近

8 年车险数据库数据进行