直搜索大致需要以下技术
:
1.信息采集技术
2.网页信息抽取技术
3.信息的处理技术,包括:重复识别、重复识别、聚类、比较、分析、语料分析等
4.语意相关性分析
5.分词
6.索引
信息采集技术,垂直搜索引擎 spider 和网页库的 spider 相比应该是更加专业,可定制化。
可定向性的采集和垂直搜索范围相关的网页忽略不相关的网页和不必要的网页,选择内容
相关的以及适合做进一步处理的网页深度优先采集、对页面有选择的调整更新频率
……,采
集可通过人工设定网址和网页分析
url 方式共同进行。垂直搜索对信息的更新有着特别的要
求,根据这些特点可以从以下几点考虑
1.信息源的稳定性(不能让信息源网站感觉到 spider
的压力
)2.抓取的成本问题 3.对用户体验改善程度。根据以上几点制定一种比较好的策略,要
做到恰到好处。策略上可以评估网站
/网页更新的系数、网站/网页的重要系数、用户点击系数
(或曝光系数)、网站稳定系数……,根据这些系数来确定对这些网站/网页更新的频率。再由
于新信息和更新了的信息
list 页面前面或者首页,所以对网页进行很好的分级可以以低成
本很好的解决更新问题,系数比较低的网页一月
update 一次,稍微高点的一周 update 一次、
中等的几天到一天一次、高的几小时到几分钟一次。类似搜索引擎的大库、周库、日库,小时
库
……
基于视觉网页块分析技术,模拟 IE 浏览器的显示方式,对网页进行解析。根据人类视觉
原理,把网页解析处理的结果,进行分块,再根据需要,对这些块进行处理,如
:采集定向、
介绍抽取和一些必要的内容的抽取正文抽取
……
结构化信息抽取技术,将网页中的非结构化数据按照一定的需求抽取成结构化数据。有两
种方式,简单的就是模板方式,另外就是对网页不依赖
web 结构化信息抽取方式,这两种
方式可以互取长处,以最简单最有效的办法满足需求。垂直搜索引擎和通用搜索引擎最大的
区别就是对网页信息结构化抽取后再结构化数据进行深度的处理,提供专业的搜索服务。所
以
web 结构化信息抽取的技术水平是决定垂直搜索引擎质量的重要技术指标。其实 web 结
构化信息抽取在百度、
google 早已经广泛应用了,如:MP3、图片搜索、google 的本地搜索就
是从网页库抽取出企业信息,添加到其地图搜索中的,
google 通过这种技术正在颠覆做内
容的方式。同样的技术应用还在
qihoo、sogou 购物、shopping 等各种应用中体现。