background image

节点的权重和边的权重。在统计的过程中

就可以发现当前的热点话题特征,再然后

利用检索系统检索出各话题特征对应的文

本列表。然后将这些列表合并在一起就构

成了该话题的所有文本列表,分析文本的

时间信息,就可以知道该话题的源头信息,

以及话题的演化信息。

图2热点话题发现的处理的流程图

4网络文本的倾向性分析

由于网络的虚拟性和匿名性,使得

网络文本内容在大多数情况下真实地表达

出了民众的态度和情绪,通过倾向性分析

可以明确网络传播者的意图和倾向。通俗

地说,文本舆情描述的是文本所传递的情

感。对文本舆I青进行分析,实际上就是试

图根据文本的内容提炼出作者的情感方

向,但是我们希望这项工作可以由计算机

帮助我们实现。I硼络文本的倾向性分析就

是挖掘网络文本内容蕴含的各种观点、喜

好、态度、情感等非内容或非事实信息。

我们不仅需要掌握网络文本的影响强度,

同时还需要对文本的感情取向有一个正确

的把握;如果我们需要对每一个文本赋予

—个值,那么影响强度可以看成是其绝对

值的大小,而舆情可以看成是其正负号

【15J。对大规模评论页面进行有效的倾向

性分析具有很好的现实意义。

迄今为止,国内外所从事的网络文

本倾向性分析研究工作可归纳为以下几个

方面:(1)客观性分类:从Web上获取

的评论文档按照类型和风格的不同区分为

主观和客观两类,这类工作以Finn等人

为代表,其结论是基于词性标注的特征选

择方法比词袋方法效果好。Wiebe等人对

人工标注的语料从短语、句子和篇章层次

进行研究,发现对于不同的标注者,其主

观性的判别有较大差异;(2)词的极性判

别:即通过分析带有语气渊的特征来判断

词的极性。Hatzivassiloglou和McKeown

使用关联词(如公平并合法,简单却

受欢迎)来区分含义相近或相反的

词。Turney和Littman提出了一种方

法,他们使用AltaVista中的NEAR

运算从Web上搜索得到两个词同时

出现的次数,以此来决定两个词的相

似程度,一个新词归属于正面语气还

是负面语气,取决于它和手工选择的

正面(或负面)种子词集合中所有词

的关系,这类工作和常规的词聚类问

题有一定的关联。Lin和Pereira等人

使用语言学同位关系把用法和意义

相似的i司进行了归类;(3)语气分

类:①基于语气标注的方法:加拿

大Ottawa大学的Kennedy、加拿大

国家研究委员会的Turney等提出语气阔

标注方法,对常用词汇进行语气标注,如

(“好”标为正面,“坏”标为负面)o分

类时直接统计一篇评论中的正面与负面语

气词的个数,正面语气词多则判为正面,

负面语气词多则判为负面,相等则判为客

观。②基于语义模式分析的方法:Tetsuya

Nasukawa和Jeonghee Yi等通过识别特定

主题词和语气表达式之间的语义关系进行

倾向性分析。Jeonghee Yi等人采用自然

语言处理技术分析特定主题和语气阋之间

的语义关联。③基于机器学习的方法:其

思想是直接利用传统的机器学习方法来训

练语气分类器。康奈尔大学的Lillian

Lee

和Pang Bo等人以Usenet上的电影评论作

为语料进行了研究,采用了不【司的特征选

择方法和机器学习方法。其实验结果显示,

基于presence—based frequency模型选择

UniGrams的方法,并采用Support

Vector

Machine(SVM)进行分类,能取得最好

的分类结果,其准确率为82.9%。

倾向性分析面临的主要问题是目前

的大部分方法和技术都和领域或话题相

关,局限在某个特定领域或者关联于某个

话题下进行倾向性的分析,缺乏一般性的

通用技术。基于语气词标注的方法严重依

赖于标注专家且不利用训练样本,其分类

精度往往不如基于机器学习的方法。而基

于机器学习的倾向性分析方法又取决于¨lI

练集的大小与质量,同时具有很强的领域

或主题依赖性,由于已有的标注语料库的

规模都很小,因而这类有监督的语气分析

方法的效果仍然难以保证。基于语义模式

分析的方法则受限于自然语言处理技术的

不够成熟而很难实用。中文倾向性分析方

面的情况则更加突出,一些基本问题尚未

得到圆满的解决:(1)各种有监督的机器

学习方法在中文数据集上的语气分类效果

孰优孰劣;(2)文本特征表示方法和特征

选择机制等因素对中文语气分类的性能将

产生什么影响;(3)文档集的哪些语气特

征对语气分类的精度具有决定性影响等。

因此,为解决上述问题,应着重研

究倾向性主客观过滤技术和观点极性、强

度、情感分析判别技术:研究网络环境下

倾向性特征词的特点和类型,并进行语气

极性判别和标注,从而构建一个面向互联

网的倾向性语气词典,建没一定规模的标

准数据集,为中文倾向性分析的深入研究

和公开评测提供支持。

5多文档自动文摘

多文档自动文摘技术是一种提炼概

要信息的有效手段,已经被进行了广泛的

研究。传统的多文档文摘技术是一种静态

文摘,即针对某个封闭的静态文档集生成

摘要,不考虑文档集的对外联系。但是在

Web2.0时代。网络信息内容的动态演化

性越来越明显,出现在BBS论坛、Blog、

在线评论等新媒体中的网络信息(如网络

话题、热点事件等,表现为一系列相关文

章的集合)是动态演化的,它们随着时间

的变化而出现、发展直至消亡,一个话题

在不同的时刻具有不同的侧重点,而不同

时刻的话题内容之间具有关联性。因此,

如何对动态演化的网络信息进行文摘成为

一个新的研究课题。动态文摘是传统静态

文摘的延伸和扩展,除了需要保证文摘信

息的主题相关性和内容的低冗余性外,还

需要针对内容的动态演化性分析已出现信