background image

62

2008.06

■中国科学院计算技术研究所戴媛程学旗

【摘要】快速发展的互联网以其交流便捷和传播迅速的显著特征,成为反映社情民意最重要的窗1:1。

越来越多的民众通过网络表达真实的想法和观点;同时。互联网涌现性特性使得大量网络舆情的

爆发,某种程度上成为舆情安全的重要因素。因此,对网络舆情安全的监测与分析迫在眉睫,亟

需舆情掌控的针对性关键技术。本文对网络舆情相关核心技术做了概述性的总结,并介绍了我们

在实际的研发工作中遇到的问题及解决思路。

【关键词】网络舆情信息采集信息提取话题发现倾向性分析自动文摘

1引言

截至2008年2月底,我国网民总人

数已达2.21亿,超过美国位居全球第一。

作为继报纸、无线广播和电视这三大传统

的传播媒体之后出现的新兴“第四媒体”,

互联网已逐渐确立起其社会信息传播的主

导地位,成为庞大的公共信息集散地和民

众参政议政最常用的平台。社会民众通过

网络所表达的群体性的情绪、态度、意见

与要求等形成了网络舆情,是社情民意中

最活跃、最尖锐的一部分,最直接、最快

一速地反映了社会各个层面的舆情状况与发

展态势,对社会产生的影响面和影响力越

来越大。

然而,互联网普及是一把双刃剑,

对社会产生着正负izi力-面的影响。一方面,

它对于信息的传播,特别是一些重要的新

闻事件和社会突发公共事件的报道(如抵

制家乐福、3.14西藏拉萨打砸抢杀事件等)

表现出传统舆论无法与之相比的优势:民

众可以实时参与对事件的讨论,进而引导

和影响事态的进程和发展;另一方面,由

于绕过了传统舆论管理的“把关人”等程

序,使得一些民众通过网络散布谣言与虚

假、低级庸俗的信息与灰色的言论,而且

西方敌对势力也借助网络串联对我国日益

发起“和平演变”攻势。

我国当前所面临的网络舆情分析与

预警的形势极其严峻,政府及相关管理者

亟需对处于“未然态”的舆情信息进行挖

掘与分析,把握处理危机事件的最佳时机。

然而仅依靠人工方法难以应对海量网络信

息的收集和处理,需要多种信息分析技术,

分析当前网络的舆情动态,对网络的热点、

焦点与敏感话题及时做出反应,从而提高

处置I碉络突发事件的能力和监管能力。

在网络舆情监控分析与预警方面,

网络舆情信息获取的快与准、内容分析的

确定性、舆情研判的准确性、舆情响应及

时性、信息跟踪的及时性等目标的实现是

网络舆情分析研究的重中之重。舆情监测

分析的核心技术在于舆情分析引擎,涉及

的最主要的技术包括文本分类与聚类、主

题检测与跟踪、观点倾向性识别、自动摘

要等计算技术。这些技术一向是国内外信

息工作者关注的领域。下文主要阐述网络

舆情分析中的四个实用关键性技术。

2网络信息采集与提取

在真实网络环境下,由于网页没计

的灵活性所造成的复杂性、网页结构的更

新频率非常高所带来的动态性、待抽取内

容的多态性、网页技术屏障以及网页的不

完整性等特点,使得通过链接网页浏览或

关键词检索等方式来获取信息的手段显示

出缺陷。为了解决这个问题,出现了高效

的、具有一定智能的网络信息采集与提取

技术,来整合纷繁的l碉络信息资源。网络

信息抽取属于网络内容挖掘(Web

content

mining)研究的一部分,主要包括结构

化数据抽取(Structured

Data

Extraction)、

信息集成(Information integration)和观

点挖掘(Opinion mining)等f¨。

国内外在网络信息采集与抽取领域

的研究主要集中在:如何建立针对各类嘲

站的全自动化信息抽取工具,并将这些信

息按照一定的格式进行整合,支持各类计

算机应用:传统的网络数据抽取方法是针

对抽取对象手工编写一段专门的抽取程

序,这个程序称为wrapper。近年来,越

来越多的网络数据抽取工具被开发出来,

替代了传统的手工编写wrapper的方法。

目前较为流行的网络数据抽取工具可分为

以下六大类【2】:

(1)开发wrapper的专用语言:用

户可用这些专用语言方便地编写wrapper。

例如Minerva,TSIMMIS,Web-OQL,

FLORID,Jedi等。

(2)以HTML为中间件的工具:这

些工具在抽取时主要依赖HTML文档的

内在结构特征。在抽取过程之前,这些

工具先把文档转换成标签树;之后工具

根据标签树自动或半自动地抽取数据。代

表工具有W4F,XWRAP,RoadRunner,

MDR。