节点的权重和边的权重。在统计的过程中

就可以发现当前的热点话题特征，再然后

利用检索系统检索出各话题特征对应的文

本列表。然后将这些列表合并在一起就构

成了该话题的所有文本列表，分析文本的

时间信息，就可以知道该话题的源头信息，

以及话题的演化信息。

图２热点话题发现的处理的流程图

４网络文本的倾向性分析

由于网络的虚拟性和匿名性，使得

网络文本内容在大多数情况下真实地表达

出了民众的态度和情绪，通过倾向性分析

可以明确网络传播者的意图和倾向。通俗

地说，文本舆情描述的是文本所传递的情

感。对文本舆Ｉ青进行分析，实际上就是试

图根据文本的内容提炼出作者的情感方

向，但是我们希望这项工作可以由计算机

帮助我们实现。Ｉ硼络文本的倾向性分析就

是挖掘网络文本内容蕴含的各种观点、喜

好、态度、情感等非内容或非事实信息。

我们不仅需要掌握网络文本的影响强度，

同时还需要对文本的感情取向有一个正确

的把握；如果我们需要对每一个文本赋予

—个值，那么影响强度可以看成是其绝对

值的大小，而舆情可以看成是其正负号

【１５Ｊ。对大规模评论页面进行有效的倾向

性分析具有很好的现实意义。

’

迄今为止，国内外所从事的网络文

本倾向性分析研究工作可归纳为以下几个

方面：（１）客观性分类：从Ｗｅｂ上获取

的评论文档按照类型和风格的不同区分为

主观和客观两类，这类工作以Ｆｉｎｎ等人

为代表，其结论是基于词性标注的特征选

择方法比词袋方法效果好。Ｗｉｅｂｅ等人对

人工标注的语料从短语、句子和篇章层次

进行研究，发现对于不同的标注者，其主

观性的判别有较大差异；（２）词的极性判

别：即通过分析带有语气渊的特征来判断

词的极性。Ｈａｔｚｉｖａｓｓｉｌｏｇｌｏｕ和ＭｃＫｅｏｗｎ

使用关联词（如公平并合法，简单却

受欢迎）来区分含义相近或相反的

词。Ｔｕｒｎｅｙ和Ｌｉｔｔｍａｎ提出了一种方

法，他们使用ＡｌｔａＶｉｓｔａ中的ＮＥＡＲ

运算从Ｗｅｂ上搜索得到两个词同时

出现的次数，以此来决定两个词的相

似程度，一个新词归属于正面语气还

是负面语气，取决于它和手工选择的

正面（或负面）种子词集合中所有词

的关系，这类工作和常规的词聚类问

题有一定的关联。Ｌｉｎ和Ｐｅｒｅｉｒａ等人

使用语言学同位关系把用法和意义

相似的ｉ司进行了归类；（３）语气分

类：①基于语气标注的方法：加拿

大Ｏｔｔａｗａ大学的Ｋｅｎｎｅｄｙ、加拿大

国家研究委员会的Ｔｕｒｎｅｙ等提出语气阔

标注方法，对常用词汇进行语气标注，如

（“好”标为正面，“坏”标为负面）ｏ分

类时直接统计一篇评论中的正面与负面语

气词的个数，正面语气词多则判为正面，

负面语气词多则判为负面，相等则判为客

观。②基于语义模式分析的方法：Ｔｅｔｓｕｙａ

Ｎａｓｕｋａｗａ和ＪｅｏｎｇｈｅｅＹｉ等通过识别特定

主题词和语气表达式之间的语义关系进行

倾向性分析。ＪｅｏｎｇｈｅｅＹｉ等人采用自然

语言处理技术分析特定主题和语气阋之间

的语义关联。③基于机器学习的方法：其

思想是直接利用传统的机器学习方法来训

练语气分类器。康奈尔大学的Ｌｉｌｌｉａｎ

Ｌｅｅ

和ＰａｎｇＢｏ等人以Ｕｓｅｎｅｔ上的电影评论作

为语料进行了研究，采用了不【司的特征选

择方法和机器学习方法。其实验结果显示，

基于ｐｒｅｓｅｎｃｅ—ｂａｓｅｄｆｒｅｑｕｅｎｃｙ模型选择

ＵｎｉＧｒａｍｓ的方法，并采用Ｓｕｐｐｏｒｔ

Ｖｅｃｔｏｒ

Ｍａｃｈｉｎｅ（ＳＶＭ）进行分类，能取得最好

的分类结果，其准确率为８２．９％。

倾向性分析面临的主要问题是目前

的大部分方法和技术都和领域或话题相

关，局限在某个特定领域或者关联于某个

话题下进行倾向性的分析，缺乏一般性的

通用技术。基于语气词标注的方法严重依

赖于标注专家且不利用训练样本，其分类

精度往往不如基于机器学习的方法。而基

于机器学习的倾向性分析方法又取决于¨ｌＩ

练集的大小与质量，同时具有很强的领域

或主题依赖性，由于已有的标注语料库的

规模都很小，因而这类有监督的语气分析

方法的效果仍然难以保证。基于语义模式

分析的方法则受限于自然语言处理技术的

不够成熟而很难实用。中文倾向性分析方

面的情况则更加突出，一些基本问题尚未

得到圆满的解决：（１）各种有监督的机器

学习方法在中文数据集上的语气分类效果

孰优孰劣；（２）文本特征表示方法和特征

选择机制等因素对中文语气分类的性能将

产生什么影响；（３）文档集的哪些语气特

征对语气分类的精度具有决定性影响等。

因此，为解决上述问题，应着重研

究倾向性主客观过滤技术和观点极性、强

度、情感分析判别技术：研究网络环境下

倾向性特征词的特点和类型，并进行语气

极性判别和标注，从而构建一个面向互联

网的倾向性语气词典，建没一定规模的标

准数据集，为中文倾向性分析的深入研究

和公开评测提供支持。

５多文档自动文摘

多文档自动文摘技术是一种提炼概

要信息的有效手段，已经被进行了广泛的

研究。传统的多文档文摘技术是一种静态

文摘，即针对某个封闭的静态文档集生成

摘要，不考虑文档集的对外联系。但是在

Ｗｅｂ２．０时代。网络信息内容的动态演化

性越来越明显，出现在ＢＢＳ论坛、Ｂｌｏｇ、

在线评论等新媒体中的网络信息（如网络

话题、热点事件等，表现为一系列相关文

章的集合）是动态演化的，它们随着时间

的变化而出现、发展直至消亡，一个话题

在不同的时刻具有不同的侧重点，而不同

时刻的话题内容之间具有关联性。因此，

如何对动态演化的网络信息进行文摘成为

一个新的研究课题。动态文摘是传统静态

文摘的延伸和扩展，除了需要保证文摘信

息的主题相关性和内容的低冗余性外，还

需要针对内容的动态演化性分析已出现信