background image

在我们熟知的搜索引擎譬如:百度、谷歌、搜狗、

360、SOSO.随着信息技术的发展,网络的推

广应用,搜索引擎在网络用户的生活中起着举足轻重的作用,以下就全文搜索引擎、目录搜
索引擎和元搜索引擎做分析比较,并对目前的搜索引擎的特点进行了详细描述。

  搜索引擎的工作原理为:从互联网上抓取网页

→建立索引数据库→在索引数据库中搜

索排序。从互联网上抓取网页利用能够从互联网上自动收集网页的

Spider 系统程序,自动访

问互联网,并沿着任何网页中的所有

URL 爬到其它网页,重复这过程,并把爬过的所有网

页收集回来。建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网
页信息根据一定的相关度算法进行大量复杂计算,得到每

1 个网页针对页面内容中及超链

中每

1 个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

  在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据
库中找到符合该关键词的所有相关网页。最后由页面生成系统将搜索结果的链接地址和页面
内容摘要等内容组织起来返回给用户。

  搜索引擎按其工作方式可分为三种,全文搜索引擎,目录搜索引擎和元搜索引擎。

  

1、全文搜索引擎

  全文搜索引擎的代表是网络爬虫,网络爬虫是一个自动提取网页的程序,它为搜索引
擎从

Internet 网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的

URL 开始,获得初始网页上的 URL,在抓取网页的过程中,不断从当前页面上抽取新的
URL 放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据
一定的网页分析算法过滤与主题无关的链接,保留有用的链接并放入等待抓取的

URL 队列。

然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页,并重复上述过程,直
到达到系统的某一条件时停止。所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、
过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析
结果还可能对以后的抓取过程给出反馈和指导。

  爬虫设计是否合理将直接影响它访问

Web 的效率,影响搜索数据库的质量,另外在设

计爬虫时还必须考虑它对网络和被访问站点的影响,因为爬虫一般都运行在速度快,带宽
高的主机上,如果它快速访问一个速度较慢的目标站点,可能导致该站点出现阻塞。

Robot

应遵守一些协议,以便被访问站点的管理员能够确定访问内容,

Index 是一个庞大的数据库,

爬虫提取的网页将被放入到

Index 中建立索引,不同的搜索引擎会采取不同方式来建立索

引,有的对整个

HTML 文件的所有单词都建立索引,有的只分析 HTML 文件的标题或前几

段内容,还有的能处理

HTML 文件中的 META 标记或特殊标记。

  

2、目录搜索引擎

  目录搜索引擎的数据库是依靠专职人员建立的,这些人员在访问了某个

Web 站点后撰

写一段对该站点的描述,并根据站点的内容和性质将其归为一个预先分好的类别,把站点
URL 和描述放在这个类别中,当用户查询某个关键词时,搜索软件只在这些描述中进行搜
索。很多目录也接受用户提交的网站和描述,当目录的编辑人员认可该网站及描述后,就会
将之添加到合适的类别中。