background image

挖掘。影响车辆保险的风险主要有驾驶人员、车辆状况、地理环境、气候条件、社会环境、经营
管理等因素,为此研究这些因素与风险的关系,并结合实际情况和对风险的影响程度,从
中选取的目标数据每条记录中包括年龄、性别、婚姻状况、驾龄、职业、车重与载货重、车型、车
龄、汽车颜色、使用性质、投保险种、保费保额、汽车贷款标志、购买价格、多车所有情况、是否
连续投保、投保地点、销售渠道、投保日期、出险日期、赔付率等

21 个属性进行关联规则的挖

掘整理归纳。

 

  

2.数据离散化和去冗余[4] 

  利用计算机对数据库的海量数据进行分析挖掘,需要对连续的数据作离散化工作。年龄、
保额、投保出险日期、赔付率都是连续的数据。为了离散量化,根据情况和计算机编程计算的
需要可将这些数据分为几类。例如,年龄分为

a1(<20 岁),a2(20-25 岁),a3(25-34

岁),

a4(35-45 岁),a5(>=46 岁),将日期按提取数据年份年分为 8 年,每年具体日

期按月分为

12 个值。将赔付率划分为 [00,]、(0,10%]、(10%,30%]、(30%,50%]、

50%,70%]、(70%,100%]、(100%,200%]、(200%,300%]、(300%,+

∞]九类。去除

由于误操作输入产生的明显不合逻辑和业务要求的垃圾数据。

 

  

3.确定关联规则的支持度至少为 35%,置信度至少为 80%。进行关联规则挖掘过程如

下:

 

  

1)利于 FP-Growth 算法找出频繁项集。 

  

2)找出满足支持度和置信度的强关联规则。 

  由于本文选取的样本属性值有

21 个,为了算法的简约和计算的省时,我们在实际挖掘

中采用了分区挖掘产生关联规则的做法

.具体做法如下:将样本属性值按驾驶员,车,环境

分为

A,B,C 大区,每区与赔付率相关。如表 1: 

  

A B C 赔付率 

  年龄

a1-a5 车重与载货重 w1-w5 投保地点 P1 

  性别

s1,s2 车型 销售渠道 P2 

  婚姻状况

y1,y2 车龄 投保年分 P3 

  驾龄

d1-d5 汽车颜色 c1-c6 投保月份 P4 

  职业

j1-j7 使用性质 u1-u5 保费保额 P5 

  多车所有情况

 投保险种 车贷标志 P6,P7    是否连续投保 购买价格 出险年月

 

P8,P9 
  表

  先按

A,B,C 区分别进行关联规则与赔付率的挖掘,得出满足条件的强关联规则 15

条,然后对

A,B,C 三大区进行区级关联,找出区间可能有关联关系的属性,对重点属性

与赔付率进行关联规则的挖掘。

 

  以上挖掘过程中,产生了许多满足条件的强关联规则:如在每年

9-11 月投保的家庭

自用新车,在当年冬天发生车损险的概率比一般车低,这可能是由于车主对自身新车的爱
护而在风雪天少开车导致的原因;已婚驾龄

5 年以上的司机开公务车出险的概率大大低于

一般司机,显然这是由于车主经验和责任心更强的缘故。在进一步的挖掘中,我们还发现了
很多意想不到的关联规则,经过分析也可以得到合理解释:贷款购买的车辆其盗抢险的发
生率很低,出于车主对爱车的存放更费心和稳妥;某些车型在

4S 店中卖出后的赔付率比其

他渠道要高,这估计是因为车主在

4S 店买车险后,4S 店的承诺和车主自身心里更倾向于

在修理价格更高的

4S 店维修导致赔付率升高等等。 

  

4.规则的解释和价值衡量 

  得到这些关联规则后,可以从系统客观和公司主观两个层面来衡量这些规则的价值和
有用性,使得到合理解释的规则可以在公司决策中发挥作用。