论文中须明确指出自己在该项目中应用数据挖掘技术所要解决的具体问题是什么。

3、主要的数据挖掘方法
(1)神经网络方法
神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等

特性非常适合解决数据挖掘问题，因此近年来越来越受到人们的关注。典型的神经网络模型
主要分三大类：以感知机、

BP 反向传播模型、函数型网络为代表的用于分类、预测和模式

识别的前馈式神经网络模型；以

hopfield 的离散模型和连续模型为代表的分别用于联想记

忆和优化计算的反馈式神经网络模型；以

art 模型、koholon 模型为代表的，用于聚类的自

“

”

组织映射方法。神经网络方法的缺点是黑箱性，人们难以理解网络的学习和决策过程。

(2)遗传算法
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局优化方

法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应
用。

(3)决策树方法
决策树是一种常用于预测模型的算法，它通过将大量数据有目的地分类，从中找到一些

有价值的、潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规模的数据处
理。最有影响和最早的决策树方法是由

Quinlan 提出的著名的基于信息熵的 id3 算法。它

的主要问题是：

id3 是非递增学习算法；id3 决策树是单变量决策树，复杂概念的表达困难；

同性间的相互关系强调不够；抗噪性差。针对上述问题，出现了许多较好的改进算法，如
Schlimmer 和 Fisher 设计了 id4 递增式学习算法等。

(4)粗集方法
粗集理论是一种研究不精确、不确定知识的数据工具。粗集方法有几个优点：不需要给

出额外信息；简化输入信息的表达空间；算法简单，易于操作。粗集处理的对象是类似二维
关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统为粗集
的数据挖掘奠定了坚实的基础。

(5)覆盖正例排斥反例方法
它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个

种子，到反例集合中逐个比较。与字段取值构成的选择子相容则舍去，相反则保留。按此思
想循环所有正例种子，将得到正例的规则。比较典型的算法有

Michalski 的 aq11 方法等。

(6)统计分析方法
在数据字段项之间存在两种关系：函数关系（能用函数公式表示的确定性关系）和相关

关系（不能用函数公式表示，但仍是相关确定性关系），对它们的分析可采用统计学方法，
即利用统计学原理对数据库中的信息进行分析。可进行常用统计（求大量数据中的最大值、
最小值、总和、平均值等）、回归分析（用回归方程来表示变量间的数量关系）、相关分析
（用相关系数来度量变量间的相关程度）、差异分析（从样本统计量的值得出差异来确定总
体参数之间是否存在差异）等。

(7)模糊集方法
利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。

系统的复杂性越高，则模糊性越强，一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦
彼性的。

论文中必须明确指出使用了上述

7 种方法中的哪种或哪几种数据挖掘方法，并给出该方

法的具体实现过程；分析所选择的数据挖掘方法的实现效果。

试题三、论大规模分布式系统缓存设计策略
写作要点