名、用户访问
IP 地址、用户的职业、年龄、爱好等原始信息。然后,采取一定的挖掘规则(如关联
规则、联机分析处理等
),对这些数据进行融合分析,其结果是为每个用户建立一个信息需求模
型。根据用户需求
,主动跟踪本地信息库和网络相关信息,收集用户所需信息。为了提高准确度,
还应对所收集的信息进行相关性分析
,可以根据用户提供的检索词,确定所检索到的信息与该
检索词的相关度。同时还可以利用智能推送技术将用户所需信息推到用户的计算机、电子信
箱
,甚至手机、PDA 上。
�
4.2 数据挖掘使网络资源的内容检索成为可能
�
网络内容挖掘是一个从文本、图像、音频、视频、元数据等形式的网络源信息中采用分类、
聚类等形式的挖掘方法
,发现有用信息,并将这些信息按满足某种检索方式的形式加以组织的
过程。通过对网站内容的挖掘
,主要是对文本内容的挖掘,可以有效地组织网络资源。有的学者
应用数据和文本挖掘技术在网络上进行问题跟踪
,从而获得了以前未知的有用知识,为信息内
容分析提供了极大的可能性。网络内容挖掘是目前网络信息检索发展的一个关键
,通过对网
页内容挖掘
,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;通过对用户所使
用的提问式
(query)的历史记录分析,可以有效地进行提问扩展(query expansion),提高查全率
和查准率
;可以运用网络内容挖掘技术进行关键词加权算法,提高网络信息的标引准确度,从
而改善检索效果。
�
4.3 数据挖掘是获取全而广的知识信息的保障
�
网络知识的挖掘就是要在具有极度不确定性的海量数据中找出信息分布的规律
,挖掘隐
藏的信息并形成模型
,从而发现具有规律性的知识。如以江苏南通师范学院对重点学科“古代
文学
”中的楚辞研究专题知识库开发为例,他们采用学科专家与学科馆员、系统管理员相结合
组成工作组的开发模式来收集、挖掘与获取楚辞研究专题信息资源
,包括楚辞研究的结构化
文本信息和非结构化的多媒体音像、图片资料信息、网上超文本信息
,提高了原始资料采集的
深度和精度。同时由于楚辞研究的信息资源浩如烟海
,采用人工的方式查询根本无法达到收
全率和知识库源信息广度要求
,因此采用自动抓取和人工过滤相结合的方式,利用非结构化的
数据挖掘技术以采集和获取全而广的楚辞研究知识信息源。