background image

待重试时间间隔、只从开始的域名下载、只从解释的

URL 下载、只下载静态化的 URL、忽略

URL 关键字等。 

  

1.3 职教黄页、资源分类设计 

  职教主题蜘蛛通过

HTTP 协议自动将网络上与职业教育相关的 Web 资源下载到本地资

源库中,保证本系统能自动采集到所需的职教相关资源。在获取所需网络资源后,本系统设
计了自动对职教黄页、资源进行分类的程序,通过对本地资源库中职教相关网站资源的相关
属性进行标引,达到对相关资源进行特征提取、自动分类、自动摘要的目的,从而使下载到
本地资源库中的职教相关资源能够根据需要进行分类,方便用户提取和使用。

 

  图

1 为本系统黄页分类流程设计图,由职教主题蜘蛛下载到本地资源库中的资源,通

HTML 解析后,在规则和特征库的支撑下,进行资源分析和信息抽取,形成职教资源库 ,

并对其进行相应的文本索引和信息索引,为用户提供检索服务。

 

  图

1 系统黄页分类流程 

  基于上述分类流程,形成了部分数据库设计,如图

2 所示。 

  图

2 部分数据库设计 

  经调研分析,本系统针对黄页分类的设计思路为:第一层次按地区分类,第二层次按
职业教育学校、职业教育政府机构、职业教育企业、职业教育培训机构、职业教育研究机构分
类。通过关键元数据项来辅助分类,分别包括:网站名称、网站

URL、所属地区、类别属性、

联系电话、

Email、摘要等。 

  根据用户对资源类别的需求,本系统设计从专业课程、招生就业、科研论文等类对资源
进行分类。其中

“专业课程”类按国家 2006 专业目录提供专业及课程相关的资源,与专业相

关的资源包括:课程标准、专业培养方案、专业教学计划等;与专业课程相关的资源包括:
专业课程简介、课程大纲、课件教案等。辅以关键元数据项:资源名称、简介、

URL、来源网站、

日期、评分等。

“招生就业”类从职教黄页网站上搜集与职教相关的招生信息,从黄页网站、就

业网站上搜集与职教专业就业相关的信息。一定要能提供专业招生的情况、专业就业的情况,
对职业教育的进口和出口两大问题有前瞻性指导。

“可研论文”类则从黄页网站上搜集与职教

相关的科研论文。

 

  

1.4 后台维护及管理设计 

  本系统还针对后台维护和管理进行了相应的功能设计,主要包括主题蜘蛛管理控制、黄
页管理、新闻推送管理、资源管理等。

 

  (

1)蜘蛛管理控制。为了保证系统自动采集职教相关资源和信息的效率,系统设计了

种子网站管理功能、蜘蛛参数控制、网页参数控制和蜘蛛程序控制功能。

 

  (

2)黄页管理。管理网站分类、信息抽取情况的校验,网站的添加、删除、修改;同时审

核用户推荐网站并加入资源库,及时删除探测无效的网站;将用户推荐的网站加入种子网
站。

 

  (

3)新闻推送管理。包括种子网站和相应规则的添加、删除、修改;种子网站的更新周

期、下载深度、目标页面的

URL 模式设置;下载结果(标题、作者、来源、时间、下载时间、内

容)的人工管理,包括对这些信息及时进行删除、修改等。

 

  (

4)资源管理。管理职教资源分类、信息抽取情况的校验,并对该类信息及时进行删除、

修改;管理探测无效资源的删除;职教资源的添加等。

 

  

2 系统实现 

  本系统基于

Microsoft Visual Studio.省略环境下的多层架构技术。 

  

3 结束语 

  本文主要介绍了一个以职业教育网站为检索对象的黄页网站系统。详细描述了系统的主
要功能设计,介绍了系统的技术实现。实验结果表明,该黄页网站系统能够及时发现、获取