节点的权重和边的权重。在统计的过程中
就可以发现当前的热点话题特征,再然后
利用检索系统检索出各话题特征对应的文
本列表。然后将这些列表合并在一起就构
成了该话题的所有文本列表,分析文本的
时间信息,就可以知道该话题的源头信息,
以及话题的演化信息。
图2热点话题发现的处理的流程图
4网络文本的倾向性分析
由于网络的虚拟性和匿名性,使得
网络文本内容在大多数情况下真实地表达
出了民众的态度和情绪,通过倾向性分析
可以明确网络传播者的意图和倾向。通俗
地说,文本舆情描述的是文本所传递的情
感。对文本舆I青进行分析,实际上就是试
图根据文本的内容提炼出作者的情感方
向,但是我们希望这项工作可以由计算机
帮助我们实现。I硼络文本的倾向性分析就
是挖掘网络文本内容蕴含的各种观点、喜
好、态度、情感等非内容或非事实信息。
我们不仅需要掌握网络文本的影响强度,
同时还需要对文本的感情取向有一个正确
的把握;如果我们需要对每一个文本赋予
—个值,那么影响强度可以看成是其绝对
值的大小,而舆情可以看成是其正负号
【15J。对大规模评论页面进行有效的倾向
性分析具有很好的现实意义。
’
迄今为止,国内外所从事的网络文
本倾向性分析研究工作可归纳为以下几个
方面:(1)客观性分类:从Web上获取
的评论文档按照类型和风格的不同区分为
主观和客观两类,这类工作以Finn等人
为代表,其结论是基于词性标注的特征选
择方法比词袋方法效果好。Wiebe等人对
人工标注的语料从短语、句子和篇章层次
进行研究,发现对于不同的标注者,其主
观性的判别有较大差异;(2)词的极性判
别:即通过分析带有语气渊的特征来判断
词的极性。Hatzivassiloglou和McKeown
使用关联词(如公平并合法,简单却
受欢迎)来区分含义相近或相反的
词。Turney和Littman提出了一种方
法,他们使用AltaVista中的NEAR
运算从Web上搜索得到两个词同时
出现的次数,以此来决定两个词的相
似程度,一个新词归属于正面语气还
是负面语气,取决于它和手工选择的
正面(或负面)种子词集合中所有词
的关系,这类工作和常规的词聚类问
题有一定的关联。Lin和Pereira等人
使用语言学同位关系把用法和意义
相似的i司进行了归类;(3)语气分
类:①基于语气标注的方法:加拿
大Ottawa大学的Kennedy、加拿大
国家研究委员会的Turney等提出语气阔
标注方法,对常用词汇进行语气标注,如
(“好”标为正面,“坏”标为负面)o分
类时直接统计一篇评论中的正面与负面语
气词的个数,正面语气词多则判为正面,
负面语气词多则判为负面,相等则判为客
观。②基于语义模式分析的方法:Tetsuya
Nasukawa和Jeonghee Yi等通过识别特定
主题词和语气表达式之间的语义关系进行
倾向性分析。Jeonghee Yi等人采用自然
语言处理技术分析特定主题和语气阋之间
的语义关联。③基于机器学习的方法:其
思想是直接利用传统的机器学习方法来训
练语气分类器。康奈尔大学的Lillian
Lee
和Pang Bo等人以Usenet上的电影评论作
为语料进行了研究,采用了不【司的特征选
择方法和机器学习方法。其实验结果显示,
基于presence—based frequency模型选择
UniGrams的方法,并采用Support
Vector
Machine(SVM)进行分类,能取得最好
的分类结果,其准确率为82.9%。
倾向性分析面临的主要问题是目前
的大部分方法和技术都和领域或话题相
关,局限在某个特定领域或者关联于某个
话题下进行倾向性的分析,缺乏一般性的
通用技术。基于语气词标注的方法严重依
赖于标注专家且不利用训练样本,其分类
精度往往不如基于机器学习的方法。而基
于机器学习的倾向性分析方法又取决于¨lI
练集的大小与质量,同时具有很强的领域
或主题依赖性,由于已有的标注语料库的
规模都很小,因而这类有监督的语气分析
方法的效果仍然难以保证。基于语义模式
分析的方法则受限于自然语言处理技术的
不够成熟而很难实用。中文倾向性分析方
面的情况则更加突出,一些基本问题尚未
得到圆满的解决:(1)各种有监督的机器
学习方法在中文数据集上的语气分类效果
孰优孰劣;(2)文本特征表示方法和特征
选择机制等因素对中文语气分类的性能将
产生什么影响;(3)文档集的哪些语气特
征对语气分类的精度具有决定性影响等。
因此,为解决上述问题,应着重研
究倾向性主客观过滤技术和观点极性、强
度、情感分析判别技术:研究网络环境下
倾向性特征词的特点和类型,并进行语气
极性判别和标注,从而构建一个面向互联
网的倾向性语气词典,建没一定规模的标
准数据集,为中文倾向性分析的深入研究
和公开评测提供支持。
5多文档自动文摘
多文档自动文摘技术是一种提炼概
要信息的有效手段,已经被进行了广泛的
研究。传统的多文档文摘技术是一种静态
文摘,即针对某个封闭的静态文档集生成
摘要,不考虑文档集的对外联系。但是在
Web2.0时代。网络信息内容的动态演化
性越来越明显,出现在BBS论坛、Blog、
在线评论等新媒体中的网络信息(如网络
话题、热点事件等,表现为一系列相关文
章的集合)是动态演化的,它们随着时间
的变化而出现、发展直至消亡,一个话题
在不同的时刻具有不同的侧重点,而不同
时刻的话题内容之间具有关联性。因此,
如何对动态演化的网络信息进行文摘成为
一个新的研究课题。动态文摘是传统静态
文摘的延伸和扩展,除了需要保证文摘信
息的主题相关性和内容的低冗余性外,还
需要针对内容的动态演化性分析已出现信