i
待估系数
线性回归系数
SST
总离差的平方和
SSR
回归平方和
R
回归系数
随机误差项
q
误判率
显著性水平系数
a
肿瘤呈良性的患者的个数
b
肿瘤呈恶性的患者的个数
a
y
良性组的判别值
b
y
恶性组的判别值
0
y
判别函数的零界值
N
总体中抽取的一个样本
0
S
良性组的离差矩阵
1
S
恶性组的离差矩阵
4 问题分析
在乳腺癌的诊断中,乳腺肿瘤肿块的厚度、细胞大小的均匀性、 细胞形状
的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核
仁、有丝分裂等九项指标作为一般的判断标准,但是在实际检查过程中过多的检
查项目会导致程序比较复杂,并具有较大的盲目性,检验中存在的误差也会导致
病情的诊断失误。怎样在检查项目较少的情况下准确的判断出中肿瘤的性质是本
问题讨论的关键。
4.1 问题一分析
问题一要求提出一种或多种方法判别乳腺肿瘤属于良性还是恶性,并检验方
法的正确性。选取前 50 个患者作为样本数据,以各元素的含量
(
1, 2,..., 9)
i
x i
为
自变量,用是否患有乳腺肿瘤作为因变量去建立多元回归模型(因变量用
y
表示,
当
1
y
时,表示恶性;当
0
y
时,表示良性)
。利用 Matlab 编程求得线性回归
方程,并将剩下的数据作为检测样本代入模型中进行检验,得出误判率为
7.14%,