挖掘。影响车辆保险的风险主要有驾驶人员、车辆状况、地理环境、气候条件、社会环境、经营
管理等因素，为此研究这些因素与风险的关系，并结合实际情况和对风险的影响程度，从
中选取的目标数据每条记录中包括年龄、性别、婚姻状况、驾龄、职业、车重与载货重、车型、车
龄、汽车颜色、使用性质、投保险种、保费保额、汽车贷款标志、购买价格、多车所有情况、是否
连续投保、投保地点、销售渠道、投保日期、出险日期、赔付率等

21 个属性进行关联规则的挖

掘整理归纳。

2.数据离散化和去冗余[4]

　　利用计算机对数据库的海量数据进行分析挖掘，需要对连续的数据作离散化工作。年龄、
保额、投保出险日期、赔付率都是连续的数据。为了离散量化，根据情况和计算机编程计算的
需要可将这些数据分为几类。例如，年龄分为

a1（＜20 岁），a2（20-25 岁），a3（25-34

岁），

a4（35－45 岁），a5（>=46 岁），将日期按提取数据年份年分为 8 年，每年具体日

期按月分为

12 个值。将赔付率划分为　[00，]、（0，10%]、（10%，30%]、（30%，50%]、

（

50%，70%]、（70%，100%]、（100%，200%]、（200%，300%]、（300%，+

∞]九类。去除

由于误操作输入产生的明显不合逻辑和业务要求的垃圾数据。

3.确定关联规则的支持度至少为 35％，置信度至少为 80％。进行关联规则挖掘过程如

下：

1）利于 FP-Growth　算法找出频繁项集。

2）找出满足支持度和置信度的强关联规则。

　　由于本文选取的样本属性值有

21 个，为了算法的简约和计算的省时，我们在实际挖掘

中采用了分区挖掘产生关联规则的做法

.具体做法如下：将样本属性值按驾驶员，车，环境

分为

A，B，C 大区，每区与赔付率相关。如表 1：

A B C 赔付率

　　年龄

a1-a5 车重与载货重 w1-w5 投保地点 P1

　　性别

s1，s2 车型销售渠道 P2

　　婚姻状况

y1，y2 车龄投保年分 P3

　　驾龄

d1-d5 汽车颜色 c1-c6 投保月份 P4

　　职业

j1-j7 使用性质 u1-u5 保费保额 P5

　　多车所有情况

投保险种车贷标志 P6，P7 　　是否连续投保购买价格出险年月

P8，P9
　　表

　　先按

A，B，C 区分别进行关联规则与赔付率的挖掘，得出满足条件的强关联规则 15

条，然后对

A，B，C 三大区进行区级关联，找出区间可能有关联关系的属性，对重点属性

与赔付率进行关联规则的挖掘。

　　以上挖掘过程中，产生了许多满足条件的强关联规则：如在每年

9－11 月投保的家庭

自用新车，在当年冬天发生车损险的概率比一般车低，这可能是由于车主对自身新车的爱
护而在风雪天少开车导致的原因；已婚驾龄

5 年以上的司机开公务车出险的概率大大低于

一般司机，显然这是由于车主经验和责任心更强的缘故。在进一步的挖掘中，我们还发现了
很多意想不到的关联规则，经过分析也可以得到合理解释：贷款购买的车辆其盗抢险的发
生率很低，出于车主对爱车的存放更费心和稳妥；某些车型在

4S 店中卖出后的赔付率比其

他渠道要高，这估计是因为车主在

4S 店买车险后，4S 店的承诺和车主自身心里更倾向于

在修理价格更高的

4S 店维修导致赔付率升高等等。

4.规则的解释和价值衡量

　　得到这些关联规则后，可以从系统客观和公司主观两个层面来衡量这些规则的价值和
有用性，使得到合理解释的规则可以在公司决策中发挥作用。