数据挖掘与数据挖掘服务实现研究
摘
要:简述了数据挖掘的概念,数据挖掘系统,数字挖掘步骤以及数据挖掘服务的实现。
�
关键词
:数据挖掘;因特网;服务
�
1 数据挖掘的概念
�
数据挖掘
(Data Mining)最早是在数据库领域发展起来的。称为数据库中的知识发现
(KDD,Knowledge Discovery in Database),据挖掘是从大量的包括结构化和非结构化数据中提
取隐含在其中的、事先不为人知的、潜在的、有用的信息和知识的过程
,它要求数据源应该是
大量的、真实的、多媒体的
;所发现和提取的信息和知识是潜在的、有效的并隐藏在大量数据
背后
,是用户感兴趣的、可理解、可运用的知识,数据挖掘是一个利用各种分析工具在海量数据
中发现模型和数据间关系的过程。
�
2 数据挖掘的系统简介
�
2.1 AuthorLink 系统
�
最近
,美国开发出了基于文献计量分析的知识查询系统,并借助于可视化技术首次将复杂
的统计结果
,用通俗易懂的图像形式显示给用户,从而实现了知识信息提供服务的一次变革。
�
2.2 专利统计分析系统
�
人们关于专利的统计分析
,事实上也是一种知识挖掘。目前,包括英国的 WPI 及美国、日
本专利局等网络站点
,都在提供专利文献检索服务的同时提供专利统计分析的服务。
�
2.3 OLAP 系统
�
OLAP 系统(On-Line Analytical Processing 联机分析处理系统)也是一种典型的数据挖掘
系统。这是一种含有数据导航、数据查询、建模、预测和数据挖掘的数据分析系统。其中
OLAP
引擎可以在前端接口接受用户提交的多维提问
,并转换成 SQL 语句,然后将提问查询提交数
据库
,最后以图表的形式输出。
�
3 数据挖掘的步骤
�
(1)确定应用领域:包括此领域的基本知识和目标;(2)建立目标数据集:选择一个数据集或
在多数据集的子集上聚焦
;(3)数据预处理:在大数据集中,根据需求,利用数据净化和整合技术,
选择与任务相关数据
,在不降低其准确度的状况下减少处理数据量;(4)数据转换:找到数据的
特征进行编码
,减少有效变量的数目;(5)数据挖掘:根据数据和所要发现知识的种类来确定相
应的挖掘算法
;(6)数据评价:将挖掘出的知识和数据以各种可视化方式显示,并将其以图形、文
本等方式存储在库中
,以便对它们进一步挖掘,直至满意为止;(7)实施和应用:实施和应用阶段
是指利用数据挖掘技术所建立模型在实际项目中的应用
,包括数据库的构建,个性化用户服务、
基于知识的企业信息管理
(MIS)、金融、证券、股票分析、电子商务、企业目标管理、决策支持等
等。
�
4 数据挖掘服务的实现
�
4.1 数据挖掘为个性化服务打下基础
�
收集用户有关的信息
,建立用户信息库。用户是数字图书馆的重要资源,一个信息完整的
用户信息库
,能保证在充分挖掘的基础上,了解用户的普遍性需求与特殊性需求,从而开展有
针对性的个性化服务。通过对用户访问日志记录信息的挖掘
,把握用户兴趣,有助于开展网络
信息推送服务以及个人信息的定制服务。但从用户群整体来看
,用户的信息需求又是随机的,
这为一般用户需求信息分析带来了很大困难。数据挖掘从全局出发
,以丰富、动态的联机查询
和分析来了解用户的信息需求。通过在线提问、调查表等方式
,系统可以获取关于用户的用户