background image

数据挖掘技术在汽车保险中的应用

   【摘  要】介绍数据挖掘中的关联规则挖掘技术在汽车保险中的实际应用,关联规则分
析汽车保险中的风险因素与赔付率之间的关系。得出的关联规则对车险行业的决策和发展有
一定参考指导意义。

 

  【关键词】数据挖掘;关联规则;风险

 

  一

.数据挖掘及关联规则介绍 

  数据挖掘(

Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in 

Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从
数据库大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人
们事先不知道的、但又潜在的有用信息和知识的过程。从商业企业的角度讲数据挖掘可以描
述为:按照企业既定业务目标,对大量的企业数据进行分析和探索,揭示隐藏的、未知的或
验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是一种决策支持过程,
它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分
析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,
减少风险,做出正确的决策。

 

  关联规则挖掘是数据挖掘中的重要课题和研究方法。最早是由 

Agrawal 等人提出的,

关联规则挖掘可以发现存在于数据库中的项目或属性间的隐含关系

[1]。关联规则的一般定

义如下:

I={I1,I2,

…,Im}是一项目集,D 是一事务数据库,D 中的每个事务 T 都是 I 的

子集即

T

∈I.每个事务都有一个标识符,称为 TID.若 A 是一项目集,当且仅当 A∈T 时,我

们就说事务

T 包含了 A。一条关联规则就是形如 A=>B 的蕴含关系。其中 A 包含于 I,B 包含

I 且 A

∩B 为空集.如果 D 中包含 A∪B 的比例是 s,就称关联规则 A=>B 在 D 中的支持度

s,也可以表示为概率 P(A

∪B);如果 D 中包含 A 的同时也包含 B 的比例是 c,则说关

联规则

AB 的置信度为 c,表示为条件概率 P(B|A),就是: 

  

s=sup(A=>B)=P(A

∪B) 

  

c=conf(A=>B)=P(A|B)=sup(A

∪B)/sup(A) 

  给定事务集

D,挖掘关联规则问题就是发现所有支持度(sup)和置信度(conf)分别

满足最小支持度阈值和最小置信度阈值的规则。

 

  关联规则挖掘的步骤

[2] 

  (

1)找出所有的频繁项集。这些项集出现的频率至少和预定义的最小支持数一样,即

所有满足最小支持度的项集的集合。

 

  (

2)由频繁项集中产生相应的强关联规则。根据定义,这些规则必须满足最小支持度

和最小置信度。即确定规则

A=>B 是否有效,可以令: 

  

r=sup(A

∪B)/sup(A),当且仅当 r>min_conf 时,规则有意义(其中 min_conf 为最

小置信度)。

 

  (

3)解释并输出规则 

  步骤一是关联规则发现算法设计的核心问题,因为它的效率高低是算法的关键

  由于

Apriori 关联规则算法[3]需要产生大量候选项集,资源消耗巨大,效率低。而 FP-

Growth 关联规则算法只需扫描一次数据库, 对系统资源的消耗较小,效率相对较高。因
此,对于海量数据的保险信息系统,本文选用

FP-Growth 算法进行关联规则挖掘. 

  二.关联规则挖掘在车辆保险中的应用

 

  

1.数据准备 

  数据准备是数据挖掘过程的先决条件,数据质量将直接影响数据挖掘的效率和准确度
以及最终规则的合理有效性。本文选取某大型保险公司省级公司近

8 年车险数据库数据进行