乳腺癌诊断的数学模型

摘要

本文解决的是乳腺癌判别的问题。我们先用 Excel 软件对 80 组数据进行统

计分析，把患者分为良性组和恶性组，以方便后面建立模型。为了解决这三个问
题，我们建立了以下三个模型。

对于问题一，我们建立了多元回归分析模型和 Fisher 模型。首先我们利用

计算机随机排列抽样，选取前 50 个患者作为样本数据，以各元素的含量

(

1, 2,..., 9)

x i



为自变量，用是否患有乳腺肿瘤作为因变量因变量（用

表示，当



时，表示恶性；当



时，表示良性）去建立多元回归模型。利用 matlab

编程，得到多元回归方程，并将剩下的 28 个患者样本作为检测值代入模型检验，
得出误判率为 7.14%。误判率较高，因而我们引入了 Fisher 模型。通过理论推导

及在 matlab 中编程，得到 Fisher 判别函数为

1 1

2 2

c x





 



,其中系数

为 0.0291，-0.0218，0.0201，0.0089,0.0106,0.0096,-0.0038,0.0164,0.0189.
仍然将剩下的 28 个患者样本作为检测值代入 Fisher 模型检验，得出误判率为
3.57%<7.14%，可以看出 Fisher 模型能降低误判率，较好地满足要求，因此问题
一我们采用更为准确的 Fisher 模型。

对于问题二，运用模型一中的 Fisher 判别模型对已知病例判断。将待诊断的

20 个患者数据代入 Fisher 模型中，从而可以判断出 20 名患者中有 8 人的肿瘤
为恶性，他们的病例号分别为 1、4、5、7、10、11、15、19，剩余 12 名患者的
肿瘤为良性。

对于问题三，我们通过统计产品与服务解决方案软件（即 Spss 软件），利用

主成分分析模型对已知的九个指标进行分析，通过剔除法，保留对因变量作用显
著的指标，剔除作用不显著的指标。得到乳腺肿瘤肿块的厚度、细胞大小的均匀
性、细胞形状的均匀性、正常的核仁四个主要指标。在四项主要指标的基础上，
建立 Fisher 模型。在 matlab 中编程，得到 Fisher 判别函数为：

y = 0 . 0 2 4 5 x

0 . 0 0 3 4

0 . 0 0 2 9

0 . 0 1 2 4



，然后进行模型检验，得到模型的误

判率为 3.57%，达到了减少化验指标的效果。

关键字: Fisher 主成分分析法 Spss 多元线性回归