background image

挖掘和知识发现存在着一定的联系和差别。一般认为

,数据挖掘是知识发现过程

中的一个特定步骤

,它用专门算法从数据库中抽取模式,然后通过系统解释和评

价模块将模式转换成用户可以理解的知识。不过

,广义的数据挖掘通常被认为是

数据准备、模式抽取、知识表示等一系列步骤组成的知识发现全过程。数据挖掘和
信息检索存在着一定的差别

,主要表现为:信息检索是目标驱动的,用户需要明确

提出查询要求

,而数据挖掘是随机的,其结果是用户所无法预知的;信息检索的目

的在于帮助用户从大量文档中找到满足其查询请求的文档

,而数据挖掘是为了揭

示文档中隐含的知识。但二者是相辅相成的。我们可以利用数据挖掘的研究成果
来提高信息检索的精度和效率

,改善检索结果的表达,使信息检索系统发展到一

个新的水平。联机分析处理技术虽然也属于分析工具

,但二者有着明显的区别。联

机分析处理技术是一种非自动过程

,用户提出问题,联机分析处理负责提取出关

于此问题的详细信息。数据挖掘的过程通常是自动的

,用户不必提出确切的问题,

从而更有利于发现隐藏的知识。

由于数据的表现形式多种多样

,人们可根据其主要研究对象的数据结构形式,

将数据挖掘分为数据挖掘、

Web 数据挖掘和文本数据挖掘。

1 数据挖掘
这种数据挖掘所针对的是结构化的数据

,如常见的 SQL , Server ,Qracle , 

Informix 等数据库或数据仓库。目前这方面可以使用下列软件 :IBM 的 DB2 
Intelligent Miner for Data SAS En2terprise Miner 等。

1. 2  Web 挖掘
数据挖掘的对象是传统的数据库或数据仓库

,而 Web 数据挖掘是指针对包

Web 页面内容、页面之间的结构、用户访问信息、商务交易信息等在内的各种

Web 数据,应用数据挖掘方法及技术以发现有用的知识来帮助人们从万维网中
提取知识

,改进站点设计,更好地开展电子商务或改进服务。Web 数据挖掘分为

Web 内容挖掘、Web 访问信息挖掘、Web 结构挖掘。

1 文本数据挖掘
文本信息的数据挖掘

,通常称文本数据挖掘。当数据挖掘的对象完全由文本

类型组成时

,结合使用数据挖掘算法与信息检索算法对巨量文本信息进行自动化

信息处理与分析的过程叫文本数据挖掘。它包括特征提取、文本摘要、文本分类与
聚类、概念操作以及探索性数据分析等工作。文本数据挖掘所应用的技术包含用
于表示文档的词频反文献频率向量表示法、词串表示法

,用于文本分类的贝叶斯

分类算法、词集合算法

,基于概念的文本聚类算法以及 K- 最近邻参照分类算法等。

数据挖掘技术及其应用是目前国际上的一个研究热点

,并在许多行业中得到了很

好的应用

,体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术

和人工智能技术

,获取用户知识、文献知识等各类知识,将是实现知识检索和知识

管理发展的必经之路。数字图书馆的数据挖掘是从数字图书馆大型数据库和浩瀚
的网络信息空间中发现并提取隐藏在其中的信息

,目的是帮助信息工作人员寻找

数据间潜在的关联

,发现被忽略的要素,而这些信息对预测趋势和决策行为也许

是十分有用的。

二、 数据挖掘在数字图书馆中的应用