时间:2022-04-27 08:24:20
序论:在您撰写网络舆情监测时,参考他人的优秀作品可以开阔视野,小编为您整理的7篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。
1.1重大事件。所有的重大事件的发生都会在很短的时间内迅速在网络上传播开来,与事件发生有关的各个报道,新闻,各方面的消息和热点都会在各个网站上铺天而来,在短时间内就会出现大量的评论,跟贴和发帖等等。
1.2突发事件。量变到质变的过程是突发事件产生的一个重要阶段,例如“日本大地震后我国的抢盐事件”,在发生初期,并没有引起太多人的关注,只是在民间出现了许多的“谣言”,但其迅速扩散,就会影响到广大群众,并有可能造成整个社会的恐慌。
1.3国家的经济工作和重点工作。网络上的主流的意识形态还是需要各个新闻媒体来传播,需要政府和组织来引导,继而形成被大众所接受的健康向上的主流舆论,政府部门要引导人民群众,最大限度地在广大人民群众中形成共识,来统一不同领域,不同阶级中的意识和信念,形成了社会的主流言论。
1.4一些关系国际民生的重大政策的改革更容易引起人们的广泛关注,形成网络舆情热点事件。
1.5和大多数人民自身利益密切相关的事件。因为舆情的一个重要作用就是人民群众对自身利益的诉求表达的一个重要渠道。在群众利益受到伤害时,他自然需要一个平台来寻求帮助和进行诉求,网络就是这样一个很好的舆情平台。
2网络舆情监测系统的设计
网络舆情监测系统包含三个层次,自下而上分别为信息采集层、信息挖掘层、信息服务层。每一层为其上一层提供基础数据,以及为进一步分析奠定基础。
2.1舆情信息采集层。信息采集层的基本任务是从数据格式多种多样的网页中采集出其蕴含的丰富的、各种各样的舆情信息。采集层的最下层为信息采集的目标网站,如新浪、网易、搜狐、新华网、人民网、凤凰网、猫扑、天涯社区等;中间层包含爬虫管理模块、预处理模块、分类存储模块,爬虫管理模块主要采用网络爬虫技术获取互联网上的舆情信息;最上层将采集的文本信息分为Web内容信息、Web结构和使用记录信息两部分内容。
2.2舆情信息挖掘层。开展舆情信息深度挖掘,发现的热点问题、分析其态度倾向、处置构成危害的敏感信息是互联网舆情信息挖掘层的主要任务。它通过分析舆情信息采集层提供的数据,能够检测网络话题、分析民众的态度倾向、监测网络敏感信息、评估舆情态势等,为舆情信息服务层服务相关部门提供客观依据,是舆情信息处理的核心内容。主要包含文本信息预处理模块、网络话题检测模块、舆情倾向性分析模块、敏感信息监控模块。
网络舆情监测以监测社会民生舆论为主,但“网络水军”往往将商业话题变相说成社会生活话题,以此来吸引眼球。这样,刻意制造的他生舆论就混杂在舆论阵营中,表达了大众的非本意舆论,掩盖了自然形成的社会舆论。如此一来,网络舆情监测统计的舆论数据就会失真,并对学术研究机构和政府造成误导。而所有这些,无疑也会降低网络舆情监测的公信力。
网络舆情监测作为一种严谨的科学体系,可以利用当今先进的计算机与网络技术,通过先期技术处理和后期操作对网络舆情进行追根溯源,通过考量舆论的来源甄别出网络舆论热点的真伪。鉴于当今网络水军广泛存在的现实,笔者提出以下几种方案完善网络舆情监测工作的舆情筛选功能。
1.情感词分析方法
“网络水军”在网上的帖子往往是非理性的、带有强烈感彩的,或是极力美化雇主的产品或服务,或是极力贬低雇主竞争对手的产品或服务,整体上倾向性比较强烈。因此,我们就可以通过对论坛或贴吧用户的帖子的文本分析,主要是对情感词的分析,来判断这个用户是不是“网络水军”,以及他所主导的舆论是不是有意制造的他生舆论。
通过倾向性分析可以明确网络传播者的意图和倾向,通俗地说,文本舆情描述的是文本所传递的情感。对文本舆情进行分析,实际上就是试图根据文本的内容提炼出作者的情感方向。网络文本的倾向性分析就是挖掘网络文本内容蕴涵的各种观点、喜好、态度、情感等非内容或非事实信息。①
此前已有研究制定了一套完整的方法和公式,其基本思路是:首先进行互联网信息采集获得数据,然后通过网页页面分析技术抽取元数据(比如信息者、信息时间、信息来源等)和正文信息,采用机器学习方法对正文信息进行情感分类,判断其为正面信息或为负面信息。经过统计后,在特定的一段时间内,当某人发表的正面或者负面信息比重超过预设阈值时,则认为其为“网络水军”。②
设定特定的时间段,信息者AN篇有关主题P的信息,其中正面信息X篇,负面信息Y篇(X+Y≤N)。设阈值为T(0
那么,信息者A为“网络水军”。
根据最新数据显示,92.3%的网民经常访问的网络社区数量在2个以上,其中27.2%的网民经常访问2个网络社区,29.1%的网民经常访问3个网络社区,经常访问4个以上网络社区的网民达到36%,③网民平均每人使用3.09个网络社区,这里将其简记作3个。那么,在上述公式中,X/Y=3(或Y/X=3),此时的阈值T为0.5。又因为“网络水军”的发帖量远大于一般网民的平均发帖量,所以阈值T应该略大于0.5。
换句话说,在现阶段,当一个发帖人的Q值大于0.5时,我们就可以基本确定这个人是“水军”,进一步确定他所主导的舆论可能是他生舆论;而且Q值越大,这种疑似程度越强。总结起来看,情感词分析方法是判断发帖人个人身份的一种有效途径,在计算机辅助技术的帮助下,将大大提高筛选的效率,其工作流程如图1所示。
图1网络舆情信息文本分析工作流程④
上图中,建立假设和检验假设并不是存在于每一个分析文本中,为可选项目。舆论监测者首先要制定有针对性的研究意图,然后按照统计学原理选择科学合理的样本。定义分析单元就是定义分析样本的每一个元素,再形成分析类目即分析系统,使之适应所提出的问题,同时使所有类目具有互斥性、完备性和信度。最后是通过统计、计算、分析得出结论。
2.相同IP与ID的统计分析
情感词分析可以从个人角度筛选出“网络水军”,对于一个主题帖子是不是“网络水军”所为的考察,我们可以通过对相同IP地址的统计分析来完成。
正如前文所说,“网络水军”在网上发帖时会用很多ID账号,即网友所说的“马甲”,这些ID或网名是不同的,所以单一根据ID无法辨别发帖、回帖是不是少数人所为。
“网络水军”每天长时间挂在网上刷帖,尽管更换不同的ID,但他们的上网IP地址是不变的。那么,通过统计每一个ID发帖时所使用的IP地址,就可以辨别出哪些不同ID发的帖子是出于同一台电脑即同一个人。如果一个论坛里的帖子出现了大量相同的IP地址,或出现在不同论坛里的同一主题的帖子中出现了大量相同IP地址,那么就可以肯定,这个舆论主题是网络水军人为制造出来的。
另外,如果在同一处的同一个ID使用不同的IP,那么说明这可能是同一个人在不同时间发表的言论,或是不同的人使用网络营销公关公司统一发放的“马甲”发表的言论。于是,就可以根据这个ID所使用的IP,继续顺藤摸瓜地找到本论坛中其他ID发表的言论和其他论坛中同一个IP使用的ID发表的言论。这样就形成了一个由IP和ID构成的无尽的关联网络,在这个网络上的每一条帖子都可以确定为是“网络水军”制造的(如图2)。
图2IP、ID关联网络
这种方法同样需要计算机技术的辅助。另外,要根据现实情况制定评价标准和体系,我们不妨统计出“水军”发帖的个数,并求出这些帖子在整个话题帖子中的所占比例,这个比例越高,那么这个舆论热点系炒作所为的疑似程度就越高。还可以根据实际操作中的情况,制定出一个更复杂的评价体系,将每一个指标赋予不同的权重,分别赋值,求出最后的疑似程度值。
3.历时性调研
由于现在“网络水军”和网络营销公关公司的大量涌现,一些企业或团体已经认识到了网络舆论对其生存发展的影响。当一家企业受到网络打手的舆论攻击时,也会自觉进行调查,并尽力澄清。同时,公安机关对于重大舆论事件也会介入,比如伊利―蒙牛“陷害门”。这些调查出的结论都可以成为网络舆情监测辨别舆论真伪的材料。
4.省略/s2009/dcfb/,2011年1月11日
舆情监测工作由来已久,最早的网络舆情监测手段也是基于传统的手工模式。通过雇佣大量工作人员对指定的监测页面进行监测,使用人工方式,对某些重点监测词汇进行频率统计来寻找舆情动向。然而随着互联网的蓬勃发展,传统的方式已经落伍,要对网络舆情进行监测,就必然要依托于一个功能强大的互联网舆情监测系统进行。伴随着网络的发展,国内外已有一系列的网络舆情监测系统正式投入使用,这些系统通常是依托于政府部门、学术机构以及企业媒体建设的,分别基于不同的需求(行政决策的、学术研究的、商业开发的),从不同的角度对网络舆情进行监测。最早的相关研究始于TDT(TopicDetectionandTracking)项目[2],它是美国国防高级研究计划局主导的,旨在从新闻网页中找到未知话题并对话题进行追踪。该项目历经多年发展演变,其核心研究内容分为报道切分、话题追踪、话题监测、首次话题报告以及关联监测这5个方面的内容[3]。在我国,由于中西文在文本挖掘、分词方面的巨大差异,以及社会经济等方面的差异,基于汉语的网络舆情监测研究起步较晚[4]。目前,学院型的舆情研究机构主要有北京大学中国国情研究中心、中国人民大学舆论研究所、上海交通大学舆情研究实验室等[5]。
2网络舆情监测系统框架
从过程上看,网络舆情监测的本质是从网络上获取数据、分析数据以及按用户需求呈现分析结果的过程,因此在系统实现时,从数据流向的角度,可以把一个网络舆情监测系统划分为数据获取模块、数据预处理模块、数据分析模块以及结果呈现模块,整个系统的结构如图1所示。
2.1数据获取模块
数据获取模块的主要功能是全天候的、自动的从整个网络上,或者某些特定网络上获取进行舆情分析的原始数据。在自动获取数据的过程中,有两方面的要求。一方面,是获取的相关舆情数据相对于整个数据的覆盖率的要求,即要尽可能地获取尽量全面的原始数据;另一方面,则是对数据准确率的要求,即所需数据要尽可能贴近用户关心的舆情热点。只有在覆盖率和准确率全部达标的情况下,才能更好地对网络舆情进行分析预测。目前,常见的数据获取方式有两种:(1)网络爬虫方式。互联网的一项基本协议是HTML协议,基于该协议,网络中大量资源以统一资源定位符(URL)相互联系,构成一个有机整体。网络爬虫从一个预先定义好的URL列表开始,依次访问该列表上的所有页面进行数据抓取,并分析当前访问页面中的其他URL,选择符合要求的URL加入待访问队列,试图以深度或者广度的方式对限定范围的网络进行遍历式的访问,以获取该网络的所有信息。(2)元搜索采集技术。搜索引擎是大多数网民访问网络的入口,目前有众多的搜索引擎服务提供商,其检索过程有不同的侧重方向,检索结果也各不相同。可以在若干不同的搜索引擎上部署元搜索引擎,通过对下层引擎的调用返回多个搜索结果,并基于一定的算法对不同结果进行选择。使用该方法能够有效地提高数据获取的覆盖率和准确率,且系统构建较为简单。
2.2数据预处理模块
Web页面的数据有其自身特点,它是一种半结构化的数据,整个数据包括内容和描述两个部分,且两者混杂在一起。直接通过数据获取模块抓取的页面内容复杂,存在大量噪音,文本内容非结构化,无法直接进行下一步的分析工作,对这些原始页面必须进行一次数据预处理。预处理的过程大体上分为两步:(1)进行网页内容提取。将用户关心的内容(例如新闻的内容、对主题的讨论等)从噪音(如页面上的广告、导航以及其他超链接)中找出。将页面转化为一个HTML标签树,根据已有知识建立提取规则,最后依据规则对页面内容进行提取。如何建立一个合适的规则是提取工作的核心,可以针对某类特定的网站建立专属规则,也可以针对一般页面的结构特点建立一些通用规则。(2)进行中文文本分词。自然语言中,词是最小的独立活动的语言成分。要对页面提取获得的非结构化连续文本进行处理,首要的工作就是对其进行分词。分词是将输入的一段文本分解为符合逻辑的一组单词的过程,例如输入“羽毛球拍”时,依照某种分词算法就可以初步将其分解为羽毛、羽毛球、球拍3个单词。最简单的分词算法以词典为基础,通过对字符串匹配完成初步工作,之后辅以少量词法、语法和语义规则;另一种思路是基于统计进行分词,统计文本中相邻字同时出现的频率,频率越高就越可能构成一个词;还有一些基于规则的分词算法,通过模拟人对句子的理解过程,对当前句子的语法、句法、词法进行分析推理,能够自动补全未登录词条。
2.3数据分析模块
数据分析模块是整个网络舆情监测系统的智能核心,在本质上是一个数据挖掘的过程。它负责将前期获得的网页内容进行深度挖掘,发现新的舆情热点,并对原有的舆情趋势进行分析。一个典型的系统应具备以下几方面的功能:(1)主题聚类。聚类可以很直观地从海量数据中发现新的主题。将处理过后的网页内容归一化到某个特征空间中,在这个特征空间中以某种方式,将特征接近的页面内容划分为不同的类别,相应类别的聚类中心就可以认为是新的主题。(2)热点发现。在当今网络时代,每天产生的舆情主题众多,其中有些主题能够迅速成为当下的舆情热点,舆情监测系统需要将这些舆情热点从众多主题中筛选出来,推送给舆情分析人员。筛选的时候应该注意“热点”一词不同方面的含义,最直观的含义就是某主题在某段时间内出现的频次;再有一方面的含义就是某主题除频次以外的权重,例如该主题来源页面的影响力、该主题的发展速度等。(3)话题追踪。网络话题的生命周期从最初的事件主题开始,经过一段时间的发展演化成为舆情热点,又经历一段时间的发展变化逐渐热度降低,最后消散。还有,在这个过程中话题的变异分支过程,都是在基于网络舆情进行决策分析时可以纳入考虑的影响因素。在分析大量话题生命周期后,可以从中总结一定的规律,对当前某话题的下个阶段进行一定的预测。(4)情感识别。网络话题除了对某个发生事件的客观描述外,还有一定的情感倾向,尤其是在网民对该话题的回复中,这种情感倾向会更加明显地体现出来。从整体上看,这种情感倾向会分为赞成、反对以及中立这3种大的方向。将人们对某个舆情热点的情感倾向进行直观体现,有助于更好地进行分析决策。这种分析不光要对舆情的当前状态进行情感识别,还要对该话题的发展过程中某个阶段的情感同时进行分析,以掌握舆论对该话题情感倾向的变化过程。
2.4结果呈现模块
网络舆情分析的目的是为相关的决策提供支撑依据,其分析结果需要简单直观地提供给决策分析人员,并在初步分析的基础上对整个结果进行二次挖掘。这就需要结果呈现模块能够动态图形化地展示分析结果,并对某些舆情热点、舆情的重大拐点进行主动推送警告。根据一般化的网络舆情分析需求,必须实现的功能有:(1)针对所有主题的查询。(2)新主题的推送。(3)舆情热点、拐点的警告。(4)舆情发展态势图。
3总结展望
关键词:网络舆情;舆情监测;指标体系
有效加强网络舆情监测分析,才能实时掌握网络舆情动态。网络舆情监测分析工作重要环节包括采集、整理和分析舆情信息,需要构建一定的指标体系,评价揭示网络舆情信息的特征与变化规律。指标是在评价某些研究对象所确定的依据和标准,包括指标名称和数值。网络舆情指标体系是由相互联系、相互补充的指标组成的统一整体,用于反映网络舆情的综合状况,揭示其中的各个方面。本文首先介绍舆情监测的来源范围,接着阐述网络舆情监测指标的构建原则与内容,提出从主题汇聚、热度、内容倾向性、预警等方面构建网络舆情监测指标体系。
1 网络舆情监测来源
网络信息的来源不断趋于多样化,从传统的新闻网站、博客论坛,发展到微博、微信等社会化网络应用[2]。准确把握舆情态势,防止监测分析片面化,需要增加信息来源范围。然而,舆情监测难以捕获所有网络信息,网络舆情的来源选择就显得非常重要。在网络上,表现为围绕新闻、事件、问题与个案等产生的网络信息。网络舆情的信息来源选择主要包括:
(1)主流媒体新闻网站。网络新闻是民众获取信息的重要来源,特别是主流媒体的新闻。重大性与突发性舆情都会及时出现在主流媒体,聚集大量网民跟帖评论,是舆情的重要来源与传播源头。(2)论坛。在网络社区中,网民会发出具有个人观点看法的各类信息。在舆情监测工作中,接触到的近半信息都来自于各种论坛。(3)博客。博客是个人分享、交流思想知识的空间,会对热点和新闻事件、特定话题和现象发表个人评论,是舆情信息的重要载体之一。博客数量众多,主要采集专家、知名人物的博客及网民回复。(4)视频网站。视频网站是社会生活和事件的记录与者,并且大多视频网站提供给留言功能,比如优酷、爱奇艺等。视频信息鲜活,网民会分享观感看法与态度,视频标题与描述信息为舆情数据的整理分析提供了可能和便利。以往工作容易忽视这类舆情载体,而实际中一些舆情事件会较早通过视频网站传播。舆情监测工作需要重视视频信息的价值,及时采集抽取其中的有价值信息。(5)社交媒体。在社交媒体应用上,国内主要是微博和微信。微博相对数据开放,数据量巨大,很难在较短的轮询时间窗口完成采集遍历。所以,与传统博客类似,选择其中的部分微博。微信主要限制在个人通讯范畴,主要将微信公众号作为舆情信息来源。另外,一些网站由于赢利、点击量等原因,有意甚至恶意炒作负面信息。所以,要区分标识这类信息来源。同时,在采集器设置上进行一定限制和过滤,避免采集处理过多无效无关数据。
2 监测指标构建原则
网络舆情指标体系的构建原则应包括:(1)主题性。具体的舆情工作具有明确的服务对象,其舆情内容具有鲜明的主题、行业或领域性质。舆情监测的目的是及时识别问题与风险。因此,舆情指标应对各类信息做出灵敏响应。(2)可靠性。指标的选取要有相对可靠性与稳定性,确保指标的使用在时间上有延续性[1]。(3)系统性。网络舆情监测分析工作是一项十分复杂的过程,涉及内容众多。指标体系一定要尽量全面完整形成整体,覆盖舆情工作流程,从多层次多角度揭示网络舆情特征。(4)实用性。舆情监测指标必须反映舆情演化趋势与客观规律,符合网络舆情工作需求与相关流程,便于分析和引导舆情。同时,指标的计算分析结果要尽量便于理解与解释说明,为舆情简报等工作提供必备的数据支持。
3 监测指标体系
(1)主题聚合
按照内容相关度准确关联聚合舆情信息,是准确把握舆情整体走向、媒体与网民言论态度的前提。主题聚合即指依据信息内容实现信息的分类与聚类,是舆情话题发现与话题追踪的基本支撑。从技术实现角度,主题聚合涉及信息内容分析,大多都是基于词语匹配的聚分类方法实现舆情话题发现与追踪等主题聚合功能。然而,文本中存在大量词形不同,但意义关联的近义词、同义词与相关词,内容相同或相近的新闻、帖文会出现在不同的页面与帖文。舆情信息中包括大量短文本,特别是网民回帖评论,存在明显的语义特征稀疏问题。分类体系只限于关键词本身,不具备主题词的语义描述,容易影响聚分类的准确率与召回率,主题聚合指数的性能会受到明显限制。一个解决方法是构建语义知识,并扩展语义计算模型提高分析的准确程度;利用当前的最新技术,比如深度学习方法,通过构建具有多隐层的学习模型,以海量舆情数据作为训练集,学习扩展语义特征,提升内容分析的准确程度。
(2)热度
舆情热度衡量舆情被关注的程度与传播范围。舆情热度主要包括舆情关注度、传播覆盖度、舆情权威度等二级指标。一些研究提出地域关注度指标[3],但网民IP地址对于第三方采集系统是难以大范围直接获取的。其中,舆情关注度采用主题内容下舆情信息的关注数量衡量,具体是篇目、浏览、回复数量的综合加权值,一般以线性累加和公式计算。该指标主要从网民角度,衡量舆情内容的被关注程度和感兴趣情况。覆盖度是指主题信息在采集来源站点中出现的比例。舆情信息来源站点是经过筛选的,代表舆情在整个监测范围内的传播程度。由于信息来源规模与特点不同,所以需要对来源类型预设参数再进行比例计算。权威度指舆情信息的来源权威度,比如人民网的权威度较高而小型商业新闻网站的权威度低,知名公众人物的博客权威度较高。权威度通过预设参数区分主流媒体、论坛、博客、微信公众号的来源指标。最后,将以上二级指标综合加权,进行标准化处理得到主题热度。
(3)内容倾向
内容倾向是信息内容中包含的观点态度,内容倾向指标用于统计舆情信息中的各类情感倾向类型数量。倾向类型主要分为两类:正面(褒、支持)、负面(贬、反对)。文本中的句子不仅包括情感词,而且包含一些具有较强情感色彩的形容词、程度副词、感叹词、否定词等影响判断情感倾向的因素。区分舆情的倾向性,需要构建情感词库作为智力支撑,才能提高情感判断的范围与准确性。比如鄙视、侵犯属于负面动词,而拥护、赞扬属于正面动词,安全、漂亮属于正面形容词。“鄙视这种言论”,“这种装置不安全”,可以依据其中的动词形容词判断情感倾向。
传统手工构建的情感词典覆盖面有限,难以满足实际运用。考虑到技术实施的快速性、易用性以及语义问题。借助已有情感词典构建基本情感词库,运用Word2Vector工具将语料库(比如已采集舆情信息、维基百科知识)转换为词向量,计算其他词语与已知情感词的语义距离,构建情感词特征空间[4]。通过扩展情感词库,判断广泛的情感倾向。舆情信息中的回帖或评论大多由较短句构成,其中句子s中的情感词表示为,s的情感类型。其中,表示词wi的倾向类型。如果wi前面否定词个数是奇数,则反置wi的极性倾向。将倾向性判断问题转化为文本分类问题,这样可以有效判断各种长短文本的情感倾向,得到主题信息的情感态度频率分布与内容倾向趋势。
(4)预警
网络舆情表现为海量的网络信息,舆情变化程度对应相应数据的特征与趋势。所以,监测分析数据变化可以描述舆情的影响趋势,对网络舆情进行危机预警。当前,网络舆情事件处理存在应急准备不足,报送时间不及时,突发事件响应速度慢等不足。一个重要原因是网络舆情预警能力相对较弱。舆情监测需要增强舆情信息的分析和预测,将工作重点从单纯的收集有效数据,向深入研判与预测舆情的趋势方向拓展。常用的思路与方法是:预设时间窗口,获取主题信息数量,内容敏感程度,负面倾向性评价数量比例,传播范围等基本特征与指标。计算历史窗口下的信息增长率、增长梯度等变化程度,评估舆情信息的数据变化趋势并制定预警级别。进而,以数据挖掘为核心技术,应用不同的数据模型方法,比如传统的多元回归、贝叶斯网络、决策树、支撑向量机等预测舆情发展趋势。如果大于某阈值或符合预定模式,认为需要预警,即从海量网络数据中预判出潜在的危机隐患。
参考文献
[1] 王铁套,王国营,陈越. 基于模糊综合评价法的网络舆情预警模型[J]. 情报杂志,2012, 31(6):47-51.
[2] IRI网络口碑研究咨询机构介绍及研究方法[EB/OL]. http:///wiki/网络舆情指数体系.
[3] 李雯静,许鑫,陈正权. 网络舆情指标体系设计与分析[J]. 情报科学,2009 (7):986-991.
[4] 黄仁,张卫. 基于word2vec的互联网商品评论情感倾向研究[J]. 计算机科学,2016(6):387-389.
关键词:网络舆情 网络舆情分析与监测
当前,网络已成为反映社会舆情的重要途径。网络舆情已渗透到社会的各个层面,成为了一股强大的、不容忽视的舆论力量。因此,如何识别和分析网络舆情信息,如何对舆情进行监测和有效引导,对于维护当今社会的稳定和发展具有重要的现实意义。
1 我国网络舆情现状
由于当前我国正处于社会变革和转型的关键时期,各种社会矛盾日益凸现,各种社会问题日益受到人们的关注,越来越多的人们愿意通过各类信息渠道表达自己的个人观点和想法。随着移动互联时代到来,借助移动终端和各种网络互动软件,人们可以随时随地的发表观点,报道事件,尤其在突发公共事件中,任何一个人都可以对事件进行现场报道,社会舆论的生成机制发生了深刻的变革。
当前我国网络舆论场的强度,在世界居首。2011年,我国网络舆论力度骤然增强,上网发声的阶层越来越广泛,网民高度警觉和关注着现实社会的各种热点事件。特别是“7・23”动车追尾事故和郭美美事件等敏感事件,造成网上网下人声鼎沸,成为当时最大的网络热点。
因此,在当前复杂的社会环境下,加强舆情信息工作,及时掌握舆情动态,积极引导社会舆论,是维护社会稳定和安全的重要举措。而研究和分析网络舆情信息,明确舆情信息的来源是前提和基础。目前,微博、微信、即时通讯软件、博客、跟帖与网络留言、网络社群和网络社区等是传播网络舆情信息的最主要途径。
2 网络舆情信息主要包含的内容
2.1 重大事件。所有的重大事件的发生都会在很短的时间内迅速在网络上传播开来,与事件发生有关的各个报道,新闻,各方面的消息和热点都会在各个网站上铺天而来,在短时间内就会出现大量的评论,跟贴和发帖等等。
2.2 突发事件。量变到质变的过程是突发事件产生的一个重要阶段,例如“日本大地震后我国的抢盐事件”,在发生初期,并没有引起太多人的关注,只是在民间出现了许多的“谣言”,但其迅速扩散,就会影响到广大群众,并有可能造成整个社会的恐慌。
2.3 国家的经济工作和重点工作。网络上的主流的意识形态还是需要各个新闻媒体来传播,需要政府和组织来引导,继而形成被大众所接受的健康向上的主流舆论,政府部门要引导人民群众,最大限度地在广大人民群众中形成共识,来统一不同领域,不同阶级中的意识和信念,形成了社会的主流言论。
2.4 一些关系国际民生的重大政策的改革更容易引起人们的广泛关注,形成网络舆情热点事件。
2.5 和大多数人民自身利益密切相关的事件。因为舆情的一个重要作用就是人民群众对自身利益的诉求表达的一个重要渠道。在群众利益受到伤害时,他自然需要一个平台来寻求帮助和进行诉求,网络就是这样一个很好的舆情平台。
3 网络舆情监测系统的设计
网络舆情监测系统包含三个层次,自下而上分别为信息采集层、信息挖掘层、信息服务层。每一层为其上一层提供基础数据,以及为进一步分析奠定基础。其系统结构如下图所示:
■
网络舆情监测系统结构图
3.1 舆情信息采集层。信息采集层的基本任务是从数据格式多种多样的网页中采集出其蕴含的丰富的、各种各样的舆情信息。采集层的最下层为信息采集的目标网站,如新浪、网易、搜狐、新华网、人民网、凤凰网、猫扑、天涯社区等;中间层包含爬虫管理模块、预处理模块、分类存储模块,爬虫管理模块主要采用网络爬虫技术获取互联网上的舆情信息;最上层将采集的文本信息分为Web内容信息、Web结构和使用记录信息两部分内容。
3.2 舆情信息挖掘层。开展舆情信息深度挖掘,发现的热点问题、分析其态度倾向、处置构成危害的敏感信息是互联网舆情信息挖掘层的主要任务。它通过分析舆情信息采集层提供的数据,能够检测网络话题、分析民众的态度倾向、监测网络敏感信息、评估舆情态势等,为舆情信息服务层服务相关部门提供客观依据,是舆情信息处理的核心内容。主要包含文本信息预处理模块、网络话题检测模块、舆情倾向性分析模块、敏感信息监控模块。
3.3 舆情信息服务层。舆情信息服务层是舆情信息挖掘的目标,其辅助相关部门把握舆情动态、关注民情民意、做出正确决策。它一方面提供舆情信息摘要,为相关部门快速了解舆情动态、掌握舆情事件的来龙去脉提供便利,提高工作效率;另一方面综合考虑话题热度、传播扩散度、态度倾向程度、内容敏感度、者影响力等舆情评价指标,并做出舆情评测、适时舆情预警信号,为相关部门及时做出反应提供帮助。
参考文献:
[1]王磊.公安网络舆情分析系统的研究[D].北京交通大学,2008(06).
关键词:网络舆情;监测引导;Web数据挖掘
中图分类号:C93 文献标志码:A 文章编号:1673—291X(2012)28—0227—03
一、时代背景
互联网时代是人类历史上一个空前伟大的技术革命时代。现代信息技术、通讯传播技术、网络技术等众多现代化的传播技术已渗透到社会生活的各个领域。互联网广泛性、即时性、开放性、共享性和互动性的特点及丰富多彩、方便实用的应用形式决定其日益成为反映社情民意的重要阵地,网上热点层出不穷,网络舆情对国家事务、公共事务决策的影响力也日益加大。历史原因曾使中国长期处于封闭状态,国内关于舆情的研究起步较晚,目前迫切需要提升与之相应的理论和技术支持。舆情分析与监测是信息深加工,以往“剪报”式低价值粗加工的信息服务,虽可按主题范围搜集,但提供的结果仅局限于单一的信息内容,传统的单一线性收集方式已不能够满足人类大脑发散思维的需要。
二、网络舆情监测引导的技术支撑
在浩瀚的网络中,政府如果仅仅依靠人工完成网络海量信息的收集和处理是不现实的。而Web数据挖掘能快速、准确的获得有价值的网络信息,利用历史数据预测未来的行为以及从海量数据中发现知识。它克服了普通数据库管理系统无法发现数据中隐藏的关系和规则及根据现有数据预测未来的弱点。Web数据挖掘的出现为自动和智能的把互联网上的海量数据转化为有用信息和知识提供了条件。可有效地从Web获取并分析相关舆情,达到监测、辅助决策和引导的目的,为网络舆情预警提供了极大的帮助。
(一)Web数据挖掘
Web数据挖掘由传统数据库领域的数据挖掘技术演变而来。数据挖掘是指从大型数据库的数据中提取出人们感兴趣的、可信的、隐含的、明显未知的、新颖的、有效的、具有潜在用处的信息的过程[1]。随着互联网的蓬勃发展,数据挖掘技术被运用到网络上,并根据网络信息的特点发展出新的理论与方法,演变成网络数据挖掘技术。Web数据挖掘是指对目标样本进行分析提取特征,以此为依据从Web文档和Web活动中抽取人们感兴趣、潜在的有用模式和隐藏的信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。
根据挖掘对象的不同,可将Web数据挖掘技术分为三大类[2]:Web内容挖掘、Web结构挖掘和Web使用挖掘。Web内容挖掘是指从Web上检索资源,从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同,Web内容挖掘分为文本挖掘和多媒体挖掘。Web结构挖掘的目标是Web文档的链接结构,目的在于揭示蕴含于文档结构中的信息,主要方法是通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。结构挖掘的重点在于链接信息。Web使用挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息,利用这种方法,可以获知Web使用者的行为偏好,从而预测其行为。
(二)Web挖掘过程
Web数据挖掘依然遵循数据挖掘的研究思路,挖掘过程分为四个阶段:数据收集、数据预处理、模式发现和模式分析(如图1所示)[3]。
1.数据收集。网络信息的收集是网络舆情监测的源头,其广度和深度决定了监测效果。对于明确主题的舆情信息采集,可以采用搜索引擎方法。由于各个现存搜索引擎索引数据库的构造方法不同,其索引数据不尽完整,所以应将多个单搜索引擎搜索结果进行整合、调用、控制和优化。搜索中可以以宽度优先、深度优先或启发方式循环地在互联网中发现相关信息,可将网络空间按域名、IP地址或国别域名划分为独立子空间详细搜索;或以信息类型为划分,如HTML格式、XML格式、FTP文件、Word文档、newsgroup文章和各种音、视频文件等。舆情信息检索结果可按不同维度展现,包括按内容分类、舆情分类、相关人物、相关机构、相关地区、正负面分类等。每个维度下把搜索结果自动分类统计展示,以便短时间内检索到精确信息。
2.数据预处理。因原始Web访问数据的文件格式是半结构化的,包含不完整、冗余、错误的数据,需进行提取、分解、合并,转化为适合挖掘的格式,保存到关系型数据库表或数据仓库中,等待进一步处理。数据预处理可改进数据质量,提高后续舆情挖掘过程的精度和性能。对采集到的舆情进行初步加工处理,如格式转换、数据清理、数据统计,对于新闻评论,需过滤无关信息,保存新闻标题、出处、时间、内容、点击次数、评论人、评论内容和评论数量等。对于论坛,需记录帖子的标题、发言人、时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时甚至可直接对网站服务器的数据库进行操作。
3.模式发现。利用数据挖掘的算法可发现用户聚类、页面聚类、频繁访问页组、频繁访问路径等隐藏的用户访问模式。若在挖掘用户浏览模式过程中发现选择的数据或属性有偏差,或挖掘技术达不到预期结果,需根据反馈结果不断重复以上过程,通过数据挖掘,创建和更新用户模式库。模式发现可应用许多相关领域的方法,但需针对Web数据挖掘的特点做出相应的改进。
关键词:高校BBS;网络舆情;监测;热点分析
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)16-3688-04
1 概述
随着互联网的普及和高校信息化的建设,各大高校都拥有自己的BBS网络,学生在网络上进行交流,发表自己的观点和意见,表达思想等,舆情的影响和规律都不容忽视。然而,对敏感和突发事件的不实言论和恶意煽动,会误导和欺骗学生,扩大学生的不满情绪,影响和破坏校园的和谐稳定。因此,有必要对高校BBS网络涉及意识形态安全的议题和言论进行有效地监管。采用数据挖掘技术,对互联网舆情进行分析、整理,才能建立起全面、有效、快速的舆情监测预警机制,使高校网络得以健康、快速的发展,成为当前研究和应用的热点。
在目前的校园网络舆情监测应用中,还没有比较成熟的网络舆情产品,因此,针对高校BBS网络的特点,结合高校网络舆情监控机制和引导策略,开发高校网络舆情监测平台有很大的现实意义和应用价值。
2 舆情热点分析方法
2.1网络舆情的形成
2.2主题关注度分析
主题关注度是指过去某一时间段内,舆情主题被关注的程度,用该主题的相关帖子回复数或与该主题的相关网页数进行衡量[1]。在进行舆情分析时,要统计某一主题或事件被关注的程度,首先要明确事件或话题本身所处的阶段;其次,应该在分析某一舆情热点之前对其进行科学的类型界定。热点事件主要分为突发自然灾害事件、生产安全事故、、公共卫生事件、公权力形象、司法事件、经济民生事件、社会思潮、境外涉华突发事件等。
2.3 主题热度分析
主题热度分析即在某一时同段内相对更加被关注或集中关注的舆情主题,用该主题的关注度进行衡量。统计所有舆情主题的关注度,在某一时间段内,对所有设为热点的主题按关注度的降序进行排列,生成某一时间段内的热点主题排行榜。排在榜首的主题网民的关注度最高,也就是热点问题所在。
3 网络舆情监测关键技术
网络舆情监测技术主要集中在两个方面,一是话题检测与跟踪技术(Topic Detection and Tracking),二是文体倾向性分析技术(Sentiment Classification)技术。主题检测与跟踪作为舆情分析的重要技术手段,是近十年自然语言处理和信息检索领域的热点研究课题[2]。要对高校网络舆情进行监测,就是运用网络爬虫、文本挖掘和文本情感分析技术,实现热点话题发现、话题跟踪、关联分析、敏感信息监测的功能。
3.1 主题爬虫技术
3.1.1网络爬虫的分类
网络爬虫也叫网络蜘蛛,是一个按照一定的规则自动提取网页的程序,这种技术可以检查站点上所有的链接是否有效,并把相关的数据保存下来,成为搜索引擎[3]。
通用网络爬虫首先把网络上的HTML文档使用超链接连接起来,就像织了一张网,爬虫程序从一个或若干初始网页的URL开始,获得初始网页上的URL列表,顺着这张网,不断的抓取网页,将内容抽取出来,直到满足系统的停止条件为止。
聚焦爬虫技术是根据一定的网页分析算法地过滤与主题无关的链接,保留有用的链接放到待抓取的队列中,通过一定的搜索策略从队列中选择下一步要抓取的URL,重复以上步骤,直到满足程序的停止条件。
3.1.2爬行算法
基于主题的聚焦爬虫搜索策略主要有人工预选策略、过滤策略、启发式搜索策略。人工预选策略是由人工预先浏览各个站点,从中选出与主题相关的网站,然后再用爬虫程序对这类网站进行持续的访问;过滤策略是将爬虫抓取下来的网页,先进行过滤,删除与主题不相关的页面,保留相关页面;启发式策略是考虑特定问题可应用的知识地优先选择合适的操作算子,尽量减少不必要的搜索,以搜索效率。下面介绍比较有代表性的算法Fish Search算法。
Fish Search算法是模拟自然界中的鱼群的行为来进行最优搜索,依据自然规律,鱼群总是朝一个方向流动来寻找食物并繁殖,子代鱼群的数量和强壮程度取决于能找到的食物的数量。在Fish Search算法中,每一个URL看作是一条鱼,当一个Web页面被抓取后,它包含的新的UEL也同时被解析出来。其中,有用的URL的数量取决于该页面是否与主题相关以及它本身包含的链接数量。当增加一个文档,鱼就繁殖一定数量的后代,若文档相关也就是指鱼儿找到了食物,可以繁殖出更多的后代,则再增加此文的链接深度;若文档不相关,鱼就越来越少,后代也越少。在某一方向上经过几条链接仍未找到相关文档,就表明此鱼已死,就不再沿着这个方向进行查找了,将此URL加入到完成队列中。若一条鱼读取文档的时间过长,说明该鱼已进入污染区,则尽量少沿着这条URL搜索,以免出现死循环。
Fish Search算法不像传统的搜索算法按照URL在父页面中出现的顺序来依次搜索,而是动态的根据网页的搜索深度值来决定搜索的顺序,实现了可能的主题相关网页优先搜索。该算法的不足之处在于相关度的计算过于简单,容易使算法过早陷入局部最优的陷阱,导致整体回报率不高[4]。
3.2 文本挖掘技术
3.2.1文本表示
文本表示包括两个方面的问题:文本的表示和计算,文本的表示是指文本特征的提取,计算指权重的定义和语义相似度的定义。
目前,文本的表示通常采用布尔模型、向量空间模型、潜在语义模型和概率模型文本表示模型,用某种特定结构去表达文本的语义。
3.2.2文本相似度计算
3.2.3文本聚类和分类
文本聚类通常对已有的文本集合进行聚类,文本聚类技术是主题检测技术的基础,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度则尽可能的小。
经过多年研究,聚类算法已经很成熟,主要可分为五类:以k-means为代表的划分方法,利用同一聚类中的对象相似度高,不同类的对象相似度低的特性进行分类;将类别看作是在层次的层次聚类方法,有两种分类方法:整合法和分裂法;主要考虑数据空间的密度、连通性和边界区的基于密度的方法;将数据的分割方法转换成对空间的分割的基于网络的算法;在高维空间进行聚类的核聚类算法等。
不管采用哪一种聚类算法,文本聚类的流程如图2所示,主要有以下步骤:
①将原始文本进行预处理,抽取词条,词条选择等其他处理;
②抽取文本特征,建立模型,例如向量空间模型、概率模型等其他模型;
③将维度进行约减,需要用到的算法有层次算法、划分算法等其他算法;
④得到聚类结果。
3.2.4 关键词和摘要提取
由于网络上的文档信息量比较庞大,如果直接对全文进行检索,其检索的速度会很慢,而且检索的效率不高,经常检索出无关的内容。因此为了提高检索质量和效率,必须对文档建立关键词和摘要。关于关键词自动提取的方法主要有主要包括基于统计、基于语义理解和基于机器学习三种方式。
关键词的抽取过程非常复杂,设计思路是首先建立一个通用的主题词表,然后基于这个主题表对处理后的页面文档进行主题词的抽取工作,主题词的抽取过程主要包括预处理、选择候选词、计算关键词权重、输出关键词等几个主要步骤。
4 实验结果
5 结束语
本文立足于高校网络舆情监测的实际需求,研究了高校舆情监控系统的关键技术:网络爬虫、文本挖掘等多种信息技术。在多种技术的支撑下,开发出一套适用于高校BBS网络的舆情监测平台,实现了对新闻的实时跟踪,校园热点话题的监控、敏感信息的监测等功能是可以是实现的,这项研究还需要进一步深入。
参考文献:
[1] 林兴发,肖照.基于大学生BBS论坛的舆情热点分析——以武汉大学珞珈山水论坛为例[J].现代商贸工业. 2010(18):188-189.
[2] Pimwadee Chaovalit,Lina Zhou,Movie Review Mining:a Comparison between Supervised and Unsupervised Classification Approaches,In Proceedings of the 38th Hawaii International Conference on System Sciences,2005.
[3] PINKERTON B.Finding what people want:Experiences with theweb crawler[A].Proceedings of the SecondWorld2WideWeb conference[C].Chicago,Illinois,1994.