挖掘和知识发现存在着一定的联系和差别。一般认为
,数据挖掘是知识发现过程
中的一个特定步骤
,它用专门算法从数据库中抽取模式,然后通过系统解释和评
价模块将模式转换成用户可以理解的知识。不过
,广义的数据挖掘通常被认为是
数据准备、模式抽取、知识表示等一系列步骤组成的知识发现全过程。数据挖掘和
信息检索存在着一定的差别
,主要表现为:信息检索是目标驱动的,用户需要明确
提出查询要求
,而数据挖掘是随机的,其结果是用户所无法预知的;信息检索的目
的在于帮助用户从大量文档中找到满足其查询请求的文档
,而数据挖掘是为了揭
示文档中隐含的知识。但二者是相辅相成的。我们可以利用数据挖掘的研究成果
来提高信息检索的精度和效率
,改善检索结果的表达,使信息检索系统发展到一
个新的水平。联机分析处理技术虽然也属于分析工具
,但二者有着明显的区别。联
机分析处理技术是一种非自动过程
,用户提出问题,联机分析处理负责提取出关
于此问题的详细信息。数据挖掘的过程通常是自动的
,用户不必提出确切的问题,
从而更有利于发现隐藏的知识。
由于数据的表现形式多种多样
,人们可根据其主要研究对象的数据结构形式,
将数据挖掘分为数据挖掘、
Web 数据挖掘和文本数据挖掘。
1. 1 数据挖掘
这种数据挖掘所针对的是结构化的数据
,如常见的 SQL , Server ,Qracle ,
Informix 等数据库或数据仓库。目前这方面可以使用下列软件 :IBM 的 DB2
Intelligent Miner for Data SAS En2terprise Miner 等。
1. 2 Web 挖掘
数据挖掘的对象是传统的数据库或数据仓库
,而 Web 数据挖掘是指针对包
括
Web 页面内容、页面之间的结构、用户访问信息、商务交易信息等在内的各种
Web 数据,应用数据挖掘方法及技术以发现有用的知识来帮助人们从万维网中
提取知识
,改进站点设计,更好地开展电子商务或改进服务。Web 数据挖掘分为
Web 内容挖掘、Web 访问信息挖掘、Web 结构挖掘。
1. 3 文本数据挖掘
文本信息的数据挖掘
,通常称文本数据挖掘。当数据挖掘的对象完全由文本
类型组成时
,结合使用数据挖掘算法与信息检索算法对巨量文本信息进行自动化
信息处理与分析的过程叫文本数据挖掘。它包括特征提取、文本摘要、文本分类与
聚类、概念操作以及探索性数据分析等工作。文本数据挖掘所应用的技术包含用
于表示文档的词频反文献频率向量表示法、词串表示法
,用于文本分类的贝叶斯
分类算法、词集合算法
,基于概念的文本聚类算法以及 K- 最近邻参照分类算法等。
数据挖掘技术及其应用是目前国际上的一个研究热点
,并在许多行业中得到了很
好的应用
,体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术
和人工智能技术
,获取用户知识、文献知识等各类知识,将是实现知识检索和知识
管理发展的必经之路。数字图书馆的数据挖掘是从数字图书馆大型数据库和浩瀚
的网络信息空间中发现并提取隐藏在其中的信息
,目的是帮助信息工作人员寻找
数据间潜在的关联
,发现被忽略的要素,而这些信息对预测趋势和决策行为也许
是十分有用的。
二、 数据挖掘在数字图书馆中的应用