background image

乳腺癌的数据处理

摘要

“ ”“ ”

本文解决的是乳腺肿瘤的 良 恶 性判别问题。现在是通过乳腺肿瘤的 9

项指标来判定乳腺肿瘤患者是否患有乳腺癌,我们通过运用 Logistic 回归分析
判定模型和费歇尔(Fisher)判别模型,对 9 项指标进行综合判定、分析,最
终制定了一个科学的乳腺肿瘤的判别方法,以便人们能及早发现并且治疗。

——

对于问题一:我们建立了两种模型

Logistic 回归分析判定模型和费歇

尔(Fisher)判别模型。对于 Logistic 回归模型,我们对数据进行分析并运用
MATLAB 软件求出回归系数,再由 Logistic 回归方程求出概率 p,进而与概率
值 0.5 进行判断,小于 0.5 则为良性,反之,则为恶性,最终得出正确率为
85%的判定方法。对于费歇尔(Fisher)判别模型,我们借助方差分析的思想构
造判定函数,通过样本 SPSS 软件对数据进行分析得出判定系数 c

i

,接着求出

临界值 y

0

,最终把要检验的样本数据代入判定函数求出 值,将 值与临界值

y

0

进行比较,从而确定肿瘤性质,最终得出正确率为 95%的判别方法。

对于问题二:由第一问得出模型二费歇尔(Fisher)判别模型正确率更高,

所以可以根据费歇尔(Fisher)判别方法来判断所给组是良性还是恶性,先将
各组数据直接代入模型二中求出的判定公式中,求得各组相应的 值,通过
与 y

0

进行比较,来判断肿瘤患者是为良性还是恶性。最终判定结果如下表:

编号

1

2

3

4

5

6

7

8

9

10

检测结果

1

0

1

1

0

1

0

1

0

1

编号

11

12

13

14

15

16

17

18

19

20

检测结果

0

1

0

0

1

0

0

0

0

0

(注:检测结果 1”

代表肿瘤为恶性, 0”代表肿瘤为良性)

对于问题三:为区分肿瘤是良性还是恶性的主要指标,我们根据 Fisher 模

型,求出系数 和良性、恶性肿瘤中各项指标的均值

(1)

x

(2)

x

最终求出指标剔

除判定数组

(1)

(2)

(

)

.*

2

x

x

c

+

剔除当中绝对值最小的一个,依次类推,得到剔

除的先后顺序,并求出相应的检验准确率,选择高准确率情况下指标剔除较
多的一组,最终得出区分肿瘤是良性还是恶性的主要指标为:乳腺肿瘤肿块
的厚度、单层上皮细胞的大小、裸核、正常的核仁。

 

关键词: logistic

    

     

判别法

费歇尔判别法

BP

      

神经网络

SPSS