乳腺癌的数据处理
摘要
“ ”“ ”
本文解决的是乳腺肿瘤的 良 恶 性判别问题。现在是通过乳腺肿瘤的 9
项指标来判定乳腺肿瘤患者是否患有乳腺癌,我们通过运用 Logistic 回归分析
判定模型和费歇尔(Fisher)判别模型,对 9 项指标进行综合判定、分析,最
终制定了一个科学的乳腺肿瘤的判别方法,以便人们能及早发现并且治疗。
——
对于问题一:我们建立了两种模型
Logistic 回归分析判定模型和费歇
尔(Fisher)判别模型。对于 Logistic 回归模型,我们对数据进行分析并运用
MATLAB 软件求出回归系数,再由 Logistic 回归方程求出概率 p,进而与概率
值 0.5 进行判断,小于 0.5 则为良性,反之,则为恶性,最终得出正确率为
85%的判定方法。对于费歇尔(Fisher)判别模型,我们借助方差分析的思想构
造判定函数,通过样本 SPSS 软件对数据进行分析得出判定系数 c
i
,接着求出
临界值 y
0
,最终把要检验的样本数据代入判定函数求出 y 值,将 y 值与临界值
y
0
进行比较,从而确定肿瘤性质,最终得出正确率为 95%的判别方法。
对于问题二:由第一问得出模型二费歇尔(Fisher)判别模型正确率更高,
所以可以根据费歇尔(Fisher)判别方法来判断所给组是良性还是恶性,先将
各组数据直接代入模型二中求出的判定公式中,求得各组相应的 y 值,通过
与 y
0
进行比较,来判断肿瘤患者是为良性还是恶性。最终判定结果如下表:
编号
1
2
3
4
5
6
7
8
9
10
检测结果
1
0
1
1
0
1
0
1
0
1
编号
11
12
13
14
15
16
17
18
19
20
检测结果
0
1
0
0
1
0
0
0
0
0
“
(注:检测结果 1”
“
代表肿瘤为恶性, 0”代表肿瘤为良性)
对于问题三:为区分肿瘤是良性还是恶性的主要指标,我们根据 Fisher 模
型,求出系数 c 和良性、恶性肿瘤中各项指标的均值
(1)
x
、
(2)
x
,
最终求出指标剔
除判定数组
(1)
(2)
(
)
.*
2
x
x
c
+
,
剔除当中绝对值最小的一个,依次类推,得到剔
除的先后顺序,并求出相应的检验准确率,选择高准确率情况下指标剔除较
多的一组,最终得出区分肿瘤是良性还是恶性的主要指标为:乳腺肿瘤肿块
的厚度、单层上皮细胞的大小、裸核、正常的核仁。
关键词: logistic
判别法
费歇尔判别法
BP
神经网络
SPSS