3.2.1 基本原理
主成分分析是设法将原来众多具有一定相关性的指标(如
P 个指标),重
新组合成一组新的互相无关的综合指标来代替原来的指标,同时根据实际需要
从中取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法,也
是数学上处理降维的一种方法。通常数学上的处理就是将原来
P 个指标作线性组
合,作为新的综合指标即主成分,并使得各主成分之间不相关,且它们的方差
依次递减。
其一般模型为
[5]
:
p
i
X
a
X
a
X
a
F
p
pi
i
i
i
,
,
1
'
'
2
2
'
1
1
=
+
+
+
=
其中,
pi
i
a
a
,
1
为
X 的协方差阵
∑
的特征值所对应的特征向量,
'
'
1
,
p
X
X
是原始变量经过标准化处理的值,
i
F 为第 i 个主成分。
3.2.2 方法说明与结果分析
3.2.2.1 数据处理
设原始数据矩阵为:
X =
p
n
ij
X
×
)
(
,
n 为样本数,p 为变量数。将数据进行标
准化变换:
j
j
ij
ij
S
X
X
X
−
=
'
其 中 ,
)
,
2
,
1
,
,
,
2
,
1
(
]
)
(
1
1
[
1
2
/
1
2
1
1
p
j
n
i
x
x
n
S
X
n
X
n
i
j
ij
j
n
i
ij
j
=
=
−
−
=
=
∑
∑
=
=
,
, 经
标准化后的每列数据均值为
0,方差为 1,这些无纲量的数据具有相对稳定性。
建立指标之间的相关系数矩阵
R 如下:
表
3 相关系数阵
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x1
1.00
0
0.150
0.97
4
0.98
5
0.96
6
0.97
0
0.97
7
0.95
0
0.17
5
0.62
9
x2
0.15
0
1.000
0.19
9
0.08
8
0.20
9
0.21
8
0.15
7
0.06
9
-
0.353
0.01
9
x3
0.97
4
0.199
1.00
0
0.92
1
0.99
9
0.95
2
0.91
5
0.95
5
0.19
3
0.61
7
x4
0.98
5
0.088
0.92
1
1.00
0
0.90
8
0.95
0
0.98
9
0.91
6
0.16
5
0.61
7
x5
0.96
6
0.209
0.99
9
0.90
8
1.00
0
0.94
3
0.90
2
0.95
2
0.18
0
0.60
1
x6
0.97
0
0.218
0.95
2
0.95
0
0.94
3
1.00
0
0.97
0
0.88
5
0.21
3
0.57
7
3