挖掘。影响车辆保险的风险主要有驾驶人员、车辆状况、地理环境、气候条件、社会环境、经营
管理等因素,为此研究这些因素与风险的关系,并结合实际情况和对风险的影响程度,从
中选取的目标数据每条记录中包括年龄、性别、婚姻状况、驾龄、职业、车重与载货重、车型、车
龄、汽车颜色、使用性质、投保险种、保费保额、汽车贷款标志、购买价格、多车所有情况、是否
连续投保、投保地点、销售渠道、投保日期、出险日期、赔付率等
21 个属性进行关联规则的挖
掘整理归纳。
2.数据离散化和去冗余[4]
利用计算机对数据库的海量数据进行分析挖掘,需要对连续的数据作离散化工作。年龄、
保额、投保出险日期、赔付率都是连续的数据。为了离散量化,根据情况和计算机编程计算的
需要可将这些数据分为几类。例如,年龄分为
a1(<20 岁),a2(20-25 岁),a3(25-34
岁),
a4(35-45 岁),a5(>=46 岁),将日期按提取数据年份年分为 8 年,每年具体日
期按月分为
12 个值。将赔付率划分为 [00,]、(0,10%]、(10%,30%]、(30%,50%]、
(
50%,70%]、(70%,100%]、(100%,200%]、(200%,300%]、(300%,+
∞]九类。去除
由于误操作输入产生的明显不合逻辑和业务要求的垃圾数据。
3.确定关联规则的支持度至少为 35%,置信度至少为 80%。进行关联规则挖掘过程如
下:
1)利于 FP-Growth 算法找出频繁项集。
2)找出满足支持度和置信度的强关联规则。
由于本文选取的样本属性值有
21 个,为了算法的简约和计算的省时,我们在实际挖掘
中采用了分区挖掘产生关联规则的做法
.具体做法如下:将样本属性值按驾驶员,车,环境
分为
A,B,C 大区,每区与赔付率相关。如表 1:
A B C 赔付率
年龄
a1-a5 车重与载货重 w1-w5 投保地点 P1
性别
s1,s2 车型 销售渠道 P2
婚姻状况
y1,y2 车龄 投保年分 P3
驾龄
d1-d5 汽车颜色 c1-c6 投保月份 P4
职业
j1-j7 使用性质 u1-u5 保费保额 P5
多车所有情况
投保险种 车贷标志 P6,P7 是否连续投保 购买价格 出险年月
P8,P9
表
1
先按
A,B,C 区分别进行关联规则与赔付率的挖掘,得出满足条件的强关联规则 15
条,然后对
A,B,C 三大区进行区级关联,找出区间可能有关联关系的属性,对重点属性
与赔付率进行关联规则的挖掘。
以上挖掘过程中,产生了许多满足条件的强关联规则:如在每年
9-11 月投保的家庭
自用新车,在当年冬天发生车损险的概率比一般车低,这可能是由于车主对自身新车的爱
护而在风雪天少开车导致的原因;已婚驾龄
5 年以上的司机开公务车出险的概率大大低于
一般司机,显然这是由于车主经验和责任心更强的缘故。在进一步的挖掘中,我们还发现了
很多意想不到的关联规则,经过分析也可以得到合理解释:贷款购买的车辆其盗抢险的发
生率很低,出于车主对爱车的存放更费心和稳妥;某些车型在
4S 店中卖出后的赔付率比其
他渠道要高,这估计是因为车主在
4S 店买车险后,4S 店的承诺和车主自身心里更倾向于
在修理价格更高的
4S 店维修导致赔付率升高等等。
4.规则的解释和价值衡量
得到这些关联规则后,可以从系统客观和公司主观两个层面来衡量这些规则的价值和
有用性,使得到合理解释的规则可以在公司决策中发挥作用。