background image

摘要:介绍了一个以职业教育网站为检索对象的黄页网站系统。该系统能够快速有效地为用
户提供准确的职教信息。描述了系统的主要功能设计,并对系统的实现进行了相关阐述。

 

  关键词:职业教育;黄页网站;搜索引擎

 

  中图分类号:

TP311.52 文献标识码:A 文章编号:1672

�7800(2011)012�0103�02 

  

 

  

 

  作者简介:邵斌(

1982-),男,江苏常州人,国网电力科学研究院硕士研究生,研究

方向为信息检索、数据挖掘、信息技术;许文洁(

1987-),女,江苏宜兴人,南京陆军指挥

学院本科生,研究方向为信息检索、数据挖掘、信息技术。

 

  

0 引言 

  在信息爆炸时代,互联网技术的发展使得

Web 站点的数量飞速增长。据《2005 年中国互

联网络信息资源数量调查报告》统计:截至

2005 年底,全国网站总数约为 69.4 万个。如何有

效地为职教

/成教(以下统称“职教”)领域的教学科研人员、管理人员、学员等网络用户提供

准确、有效的职教信息,是各级职教机构发展过程中遇到的问题。本文设计的职教黄页网站
系统能够自动地提供国内主要职业教育机构(包括各级各类职业教育行政管理部门、教研室、
资源建设中心、学校、专门的研究和开发机构等)的网站黄页目录,并按照指定的规则分门
别类地展现这些网站,提供所列网站发布机构的名称、地区、联系方式、网站链接、网站内容
摘要等信息,根据地区、网站性质等提供目录检索和自由检索。将搜索引擎技术应用于职教
黄页网站系统,能够快速有效地为用户提供准确的职教信息,很好地加速我国职业教育的
发展。

 

  

1 系统主要功能设计 

  

1.1 本系统与通用搜索引擎的区别 

  根据与通用网页搜索引擎的比较分析,本系统具备如下特征:①针对性更强:本系统
的检索对象定位为职业教育网站,比通用搜索引擎检索的网页更具针对性;②更适合用户
需求:本系统强调对职教领域资源质量的评价和筛选,更加符合用户的需求;③便捷性更
高:本系统可自动抽取职教类网站所属区域、学科及所在学段、单位、地址等用户关注度较高
的信息,为用户的检索和查询提供了更多的便捷性;④信息有效性可靠度更高:本系统在
自动采集职教相关信息的同时,还提供了用户人工比对校验和报错纠错等功能,进一步确
保了采集信息的有效性和可靠度。

 

  

1.2 主题蜘蛛资源搜索 

  网络蜘蛛即

Web Spider,是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么

Spider 就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某
一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通
过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取
完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有
的网页都抓取下来。然而,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整
个网页数量的百分之四十左右。因此,针对互联网信息量巨大的特点,本系统设计了面向特
定领域的职教主题蜘蛛搜索,有针对性的自动采集职教领域的资源。

 

  为了充分发挥抽取针对性强、精确度高、时效性好的特征,本系统设计了较多控制和提
高主题蜘蛛抽取效率的参数,包括:①蜘蛛的控制参数:包括线程数量、各线程等待时间、
超时时间、数据库连接参数;②针对下载网页的控制参数:包括相关度参数、抓取深度、下载
文件类型、下载子页面个数等;③针对主题蜘蛛程序控制的参数:包括网络出现状况是的等