background image

搜索引擎是如何调用广大互联网的数据库的

  现在越来越多的用搜索引擎,优化自己的网站但是却不知道这些搜
索引擎的工作原理。很多人都习惯用简单的关键词进行搜索,比如说,

用 数据库 进行搜索寻找各种行业数据库,这样肯定不行的,得到的结
果太宽泛,绝大部分很可能都是一些关于数据库软件和设计等方面的东
西,难以筛选。

  为了提高效率,需要进行精确搜索,不能用单个关键词进行搜索,

我们需要用组合关键词进行搜索,如 行业数据库 ,行业只是泛指,大

家进行实际搜索的时候,可以用具体的行业词代替,如 化妆品数据库 。
这样可以大大提高精确搜索范围。

  搜索引擎的系统架构和运行方式吸收了信息检索系统设计中许多有
价值的经验,也针对万维网数据和用户的特点进行了许多修改,如右图
所示的搜索引擎系统架构。其核心的文档处理和查询处理过程与传统信
息检索系统的运行原理基本类似,但其所处理的数据对象即万维网数据
的繁杂特性决定了搜索引擎系统必须进行系统结构的调整,以适应处理
数据和用户查询的需要。

  蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,
这个过程即是索引(index).在索引数据库中,网页文字内容,关键词出

现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。

用户在搜索引擎界面输入关键词,单击 搜索 按钮后,搜索引擎程

序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是
否需要启动整合搜索,判断是否有拼写错误或错别字等情况。搜索词的
处理必须十分快速。