二、模型假设
假设 1:各种指标对肿瘤的影响是相对独立的。
假设 2:9 个指标中的数据都是 0-10 之间的自然数。
假设 3:肿瘤只有良性和恶性两种情况。
假设 4:每组数据独立作用互不影响。
假设 5:数据缺失组对判定无影响。
假设 6:除了 9 中指标的影响外,不考虑其他因素的影响。
三、符号说明
符号
符号说明
p
经 logistic 转换后肿瘤为恶性的判定概率
q
肿瘤为恶性的概率
k
β
回归系数(
1, 2,3...9
k
=
)
k
X
患者体内第 k 种指标的大小
i
c
判定系数(
1, 2,3....9
i
=
)
1
G
良性患者的总体
2
G
恶性患者的总体
(1)
i
y
第i 组良性的判定函数
(2)
i
y
第i 组恶性的判定函数
0
y
Fisher 判定临界值
四、问题分析
本文研究的是乳腺癌是良性还是恶性的判定方法以及影响乳腺肿瘤是良
性还是恶性的主要因素的问题。通过题中乳腺肿瘤肿块的厚度、细胞大小的均
匀性、细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色
质、正常的核仁、有丝分裂这 9 个指标的数据分析,来判断是良性还是恶性。
针对问题一:为了更好的判定乳腺癌是良性还是恶性,我们建立了两种
——
模型
Logistic 回归分析判定模型和费歇尔(Fisher)判别模型。我们先运用
Logistic回归分析方法对数据进行分析并求出回归系数,再由Logistic回归方程
求出概率p,进而与概率值0.5进行判断,小于0.5则为良性,反之,则为恶性。
接着,我们运用费歇尔(Fisher)判别模型,借助方差分析的思想构造判定函