background image

数据挖掘与数据挖掘服务实现研究

  摘

 要:简述了数据挖掘的概念,数据挖掘系统,数字挖掘步骤以及数据挖掘服务的实现。

� 

  关键词

:数据挖掘;因特网;服务  

   

 

  

1 数据挖掘的概念  

  数据挖掘

(Data Mining)最早是在数据库领域发展起来的。称为数据库中的知识发现

(KDD,Knowledge Discovery in Database),据挖掘是从大量的包括结构化和非结构化数据中提
取隐含在其中的、事先不为人知的、潜在的、有用的信息和知识的过程

,它要求数据源应该是

大量的、真实的、多媒体的

;所发现和提取的信息和知识是潜在的、有效的并隐藏在大量数据

背后

,是用户感兴趣的、可理解、可运用的知识,数据挖掘是一个利用各种分析工具在海量数据

中发现模型和数据间关系的过程。

 

  

2 数据挖掘的系统简介  

  

2.1 AuthorLink 系统  

  最近

,美国开发出了基于文献计量分析的知识查询系统,并借助于可视化技术首次将复杂

的统计结果

,用通俗易懂的图像形式显示给用户,从而实现了知识信息提供服务的一次变革。

 


  

2.2 专利统计分析系统  

  人们关于专利的统计分析

,事实上也是一种知识挖掘。目前,包括英国的 WPI 及美国、日

本专利局等网络站点

,都在提供专利文献检索服务的同时提供专利统计分析的服务。  

  

2.3 OLAP 系统  

  

OLAP 系统(On-Line Analytical Processing 联机分析处理系统)也是一种典型的数据挖掘

系统。这是一种含有数据导航、数据查询、建模、预测和数据挖掘的数据分析系统。其中

OLAP

引擎可以在前端接口接受用户提交的多维提问

,并转换成 SQL 语句,然后将提问查询提交数

据库

,最后以图表的形式输出。  

  

3 数据挖掘的步骤  

  

(1)确定应用领域:包括此领域的基本知识和目标;(2)建立目标数据集:选择一个数据集或

在多数据集的子集上聚焦

;(3)数据预处理:在大数据集中,根据需求,利用数据净化和整合技术,

选择与任务相关数据

,在不降低其准确度的状况下减少处理数据量;(4)数据转换:找到数据的

特征进行编码

,减少有效变量的数目;(5)数据挖掘:根据数据和所要发现知识的种类来确定相

应的挖掘算法

;(6)数据评价:将挖掘出的知识和数据以各种可视化方式显示,并将其以图形、文

本等方式存储在库中

,以便对它们进一步挖掘,直至满意为止;(7)实施和应用:实施和应用阶段

是指利用数据挖掘技术所建立模型在实际项目中的应用

,包括数据库的构建,个性化用户服务、

基于知识的企业信息管理

(MIS)、金融、证券、股票分析、电子商务、企业目标管理、决策支持等

等。

 

  

4 数据挖掘服务的实现  

  

4.1 数据挖掘为个性化服务打下基础  

  收集用户有关的信息

,建立用户信息库。用户是数字图书馆的重要资源,一个信息完整的

用户信息库

,能保证在充分挖掘的基础上,了解用户的普遍性需求与特殊性需求,从而开展有

针对性的个性化服务。通过对用户访问日志记录信息的挖掘

,把握用户兴趣,有助于开展网络

信息推送服务以及个人信息的定制服务。但从用户群整体来看

,用户的信息需求又是随机的,

这为一般用户需求信息分析带来了很大困难。数据挖掘从全局出发

,以丰富、动态的联机查询

和分析来了解用户的信息需求。通过在线提问、调查表等方式

,系统可以获取关于用户的用户