background image

(3)基于NLP的工具:这些工具通

常利用filtering、part-of-speech

tagging、

lexical semantic

tagging等NLP技术建立

短语和橘子元素之间的关系,从而推导出

抽取规则。这些工具比较适合抽取那些包

含符合文法的页面,比如工作列表等。代

表工具有RAPIER,SRV,WHISK。

(4)Wrapper的推导工具:Wrapper

的推导工具从一组训练样例中推导出基

于分隔符的抽取规则。这些工具和基于

NLP的工具之间最大的差别在于:这些

工具不依赖于语言约束,而是依赖于数据

的格式化特征。这个特点决定了这些工具

比基于NLP的工具更适合于抽取HTML

文档。代表工具有WIEN,SoftMealy,

STALKER。

(5)基于模型的工具:这些工具让

用户通过图形界面,建立文档中其感兴趣

的对象的结构模型,“教”工具学会如何

识别文档中的对象,从而抽取出对象。代

表工具有NoDoSE,DEByE。

(6)基于本体的工具:这些工具首

先需要专家参与,人工建立某领域的知识

库,然后工具基于知识库去做抽取操作。

如果知识库具有足够的表达能力,那么抽

取操作可以做到完全自动。而且由这些工

具生成的wrapper具有比较好的灵活性和

适应性。代表工具有:BYU,X-tract。

在实际工程应用中,对于网络信息

采集与提取工具的定性分析必须考虑到以

下六个指标:(1)自动化程度:这是个非

常重要的指标。它意味着在生成wrapper

的同时,需要用户参与的工作量;(2)是

否支持复杂结构对象的处理;(3)是否支

持页面的文本分析;(4)是否提供图形用

户界面.(5)是否支持非HTML文档;(6)

灵活性和适应性。

目前尚没有一个工具可以适应所有

的数据抽取需求。近年来研发高度自动化

的抽取工具成为不少研究者关注的热点,

例如比较流行的全自动的抽取工具MDR、

RoadRunner,但这些工具仍然存在不足之

处:在线数据抽取、在线数据集成的速度

不够快,且处理的准确率不高;抽取方法

的通用性有限,对结构化程度较松散的网

页处理不好;另外,对于大多数工具过多

地考虑了抽取的自动化程度,但较少考虑

到抽取的效率等问题,而该问题则

是实际工程应用中至关重要的问

题。

在此特别需要提出的是对于

承载着松散的结构化信息的动态网

页,例如博客、论坛信息的提取与

采集技术。博客作为—个巨大的知

识库,如何从博文中获取重要的信

息成为目前信息检索领域一个新的

研究课题。与新闻网页不同,博客

处,采用层次化的结构对话题进行组织。

如图1所示

正文分成文章和评论两部分。目前现有的

一些正文抽取算法和主题划分算法都很难

对其进行精确的定位和切分。凶此,在博

客信息抽取方面,需要研究新的定位和切

分算法以适应博客检索的需求[121。除了

博客之外,论坛信息的抽取也是一项非常

复杂的工作。在论坛中有一种非常重要的

页面,称为版面页面,对其信息的抽取也

是一大研究重点[131。

3话题发现与跟踪

话题发现与跟踪是一项旨在依据事

件对语言文本信息流进行组织、利用的研

究,也是为应对信息过载问题而提出的一

项应用研究。目前研究中采用的主要表示

方法多种多样,但主流的模型有两种:基

于向量的模型和基于概率的模型。基于向

量的表示就是把所有待处理数据表示为向

量,判断两个文档是否讨论同一个话题是

通过计算两个向量之间的相似度来完成,

而基于概率的表示则是把文档表示为词的

概率模型或N元语言模型,通过计算话

题T与文档d的生成概率P(dlT)来判断两

者之问的关系。

主流的话题发现算法都采用文本聚

类技术来实现。该类算法的主要l、口J题就是

准确率低、大类现象比较严重。在早期的

嘲络话题相关研究中,为了简化问题,一

般假定所有的话题没有层次之分,而且一

个文档只能与一个话题相关[31。但随着

研究的深入。从2003年开始,层次化话

题发现作为话题发现与跟踪领域—个全新

的研究问题被提了出来,它突破了传统的

话题组织忽略话题多粒度现象的不合理之

图1层次话题发现的有向无环图示例

从应用角度来看,层次化话题识别

突破了传统的“一类一团”的结果呈现方

式,用户可以通过图形化的层次结构进行

浏览,有利于减少阅读的工作量。正是基

于这样的特点,使得层次化话题识别更能

体现事件信息组织的本质,因而可以采用

更加有意义的系统评测方式。

参考文献0.1提出了一种基于话题特

征统计的热点话题发现方法,这一研究思

路实现将文本聚类问题转换为话题特征聚

类问题,也大大提高了话题的准确率和可

读性。该方法分为文本预处理和话题发现

与分析两个步骤。在文本预处理阶段,首

先对文本进行分词,建立索引,将文本存

入我们的索引库中。在分浏的基础上,提

取文本中的关键词列表,用一定数量的关

键词来表示该文本信息。需要注意的是,

文本的关键词是文本的特征,但不是活题

的特征。如“中国”、“足球”等不能构成

一个话题特征,因为它们对话题的刻画都

过于空泛。不妨采取两两关键词组合的方

式构建话题特征。比如每个每篇文本提取

5个关键词,就可以得到lo个话题特征(5

个关键词两两组合,共有lo种),然后将

该话题特征存储到话题特征库中。话题特

征库是话题特征构成的一个幽结构。在该

图中,每个话题特征构成一个图节点,节

点之I'日J的边表示两个话题之间的关系。在

边和节点上都有一个权重,分别表示两个

话题特征共现的频率和话题特征出现的频

率。对于每篇报文,统计出其话题特征后,

就修改话题特征库中的图结构,分别修改