部分组成。在用户搜索关键词扩展方面
,提出自己的算法,利用本体将用户搜索词
构造出语义树
,然后在语义树上计算语义距离,对搜索词进行合理扩展,它解决了
查询词扩展规模过大
,噪声数据过多的问题。
王俊(
2012) 从理论和实践两个方面对垂直搜索引擎中关键技术做了深
入研究。介绍了研究背景及意义、搜索引擎的分类和垂直搜索引擎在国内外的发
展现状。介绍了垂直搜索引擎的基本工作原理、系统构成和关键技术。详细介绍了
网页的主题表示
,构造了本文的主题特征向量,分析了主题网页的分布特征。深入
研究了基于内容的主题相关度判定和基于链接结构的主题相关度判定
,分析了各
自的缺点和不足。
朱敏(
2012)在搜索引擎领域,中文分词对搜索结果排名的影响非常大,因
为搜索引擎在建立索引和检索结果的过程中
,都需要先分词,在深入研究基于理
解的分词、基于统计的分词和基于词典的分词、以及歧义词和未登录词处理的基
础上
,设计了一种基于字典的字符串匹配方法和基于统计相结合的分词算法 ,其
中基于字典的方法采用逆向最大匹配方法。算法中的词典由核心词典和临时词典
组成
,并且核心词典采用二级哈希存储结构,在此基础上使用整词二分法的首字
哈希查找技术
,可在兼顾结构简单、空间占用小的情况下提高查找效率。临时词典
采用单字哈希以简化其构造和维护。