background image

 

 

 

乳腺癌诊断的数学模型 

摘要 

本文解决的是乳腺癌判别的问题。我们先用 Excel 软件对 80 组数据进行统

计分析,把患者分为良性组和恶性组,以方便后面建立模型。为了解决这三个问
题,我们建立了以下三个模型。 

对于问题一,我们建立了多元回归分析模型和 Fisher 模型。首先我们利用

计算机随机排列抽样,选取前 50 个患者作为样本数据,以各元素的含量

(

1, 2,..., 9)

i

x i

为自变量,用是否患有乳腺肿瘤作为因变量因变量(用

y

表示,当

1

y

时,表示恶性;当

0

y

时,表示良性)去建立多元回归模型。利用 matlab

编程,得到多元回归方程,并将剩下的 28 个患者样本作为检测值代入模型检验,
得出误判率为 7.14%。误判率较高,因而我们引入了 Fisher 模型。通过理论推导

及在 matlab 中编程,得到 Fisher 判别函数为

1 1

2 2

p

p

y

c x

c x

c x

 

,其中系数

为 0.0291,-0.0218,0.0201,0.0089,0.0106,0.0096,-0.0038,0.0164,0.0189.
仍然将剩下的 28 个患者样本作为检测值代入 Fisher 模型检验,得出误判率为
3.57%<7.14%,可以看出 Fisher 模型能降低误判率,较好地满足要求,因此问题
一我们采用更为准确的 Fisher 模型。 

对于问题二,运用模型一中的 Fisher 判别模型对已知病例判断。将待诊断的

20 个患者数据代入 Fisher 模型中,从而可以判断出 20 名患者中有 8 人的肿瘤
为恶性,他们的病例号分别为 1、4、5、7、10、11、15、19,剩余 12 名患者的
肿瘤为良性。 

对于问题三,我们通过统计产品与服务解决方案软件(即 Spss 软件),利用

主成分分析模型对已知的九个指标进行分析,通过剔除法,保留对因变量作用显
著的指标,剔除作用不显著的指标。得到乳腺肿瘤肿块的厚度、细胞大小的均匀
性、细胞形状的均匀性、正常的核仁四个主要指标。在四项主要指标的基础上,
建 立 Fisher 模 型 。 在 matlab 中 编 程 , 得 到 Fisher 判 别 函 数 为 :

1

2

3

4

y = 0 . 0 2 4 5 x

0 . 0 0 3 4

0 . 0 0 2 9

0 . 0 1 2 4

x

x

x

,然后进行模型检验,得到模型的误

判率为 3.57%,达到了减少化验指标的效果。 

 

 

关键字:  Fisher   主成分分析法   Spss   多元线性回归