欢迎来到优发表网

购物车(0)

期刊大全 杂志订阅 SCI期刊 期刊投稿 出版社 公文范文 精品范文

网络舆情分析研究现状范文

时间:2023-10-13 16:07:25

序论:在您撰写网络舆情分析研究现状时,参考他人的优秀作品可以开阔视野,小编为您整理的7篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。

网络舆情分析研究现状

第1篇

【关键词】网络舆情监测 现状 发展路径

网络舆情监测业的现状

舆情监测是指整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,满足用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。①针对网络舆情监测,目前有两种观点,一种观点重在强调网络舆情监测软件系统的作用,即网络舆情监测是通过对网络各类信息汇集、分类、整合、筛选等技术处理,再形成对网络热点、动态、网民意见等实时统计报表的软件工具。另一种观点认为网络舆情监测是全部网络舆情服务工作的最基础部分,它是高度人机合一的工作。舆论监测机构以第三方的身份进行观察,将事件各方视为平等媒介主体,通过搭建适当的沟通渠道消除误解、解决问题,同时提供客观、中立的意见,是客户的智囊和顾问。笔者认为,这两种观点都只是部分反映了网络舆情的现实,是不全面的。因此,本文所讨论的是建立在二者基础上的网络舆情监测及其相关产业。总的来说,国内的网络舆情监测服务机构大致可以分为四类:

第一类由软件公司和传统的市场调查公司联合成立的舆情监测软件企业,以方正电子、拓尔思、军犬为代表,它们的技术实力较为雄厚,抓取网络舆情数据能力较强。

第二类是依托人民网、新华网等主流媒体建立的舆情监测平台,即舆情监测行业的媒体派,如人民网舆情监测室、新华网“舆情在线”。这两个舆情监测系统主要针对社情民意进行监测,对时事热点和受众心理变化的敏感度较高。

第三类由高校或学术机构创办的舆情研究所。如中国传媒大学网络舆情(口碑)研究所、中国人民大学舆论研究所等。这类机构具有浓厚的学术传统,汇聚了新闻学、传播学专业的各类精英,善于捕捉网络舆情的变化,并将其归纳、梳理,总结规律并且上升到理论研究的高度。

第四类是由舆情监测软件机构和高校新闻与传播研究所合作成立的舆情实验室,如南京大学—谷尼网络舆情监测与分析实验室、清华—优讯舆情实验室。这一类机构将高校多学科团队的学术优势与先进互联网监控软件的技术优势、市场经验相结合,实现优势互补。

这些网络舆情的监测机构都有一套较为完整的网络舆情监测理论体系、工作方法、工作流程和应用技术,既可以对传统媒体的网络版,又可以对各大网站的新闻、新闻跟帖、网络论坛、微博、博客、网络时评等进行24小时监测,并进行专业的统计和分析,最终形成监测分析研究报告。但是,它们之间的不同之处亦很明显:

第一,服务的对象不同。舆情监控系统功能、工作流程大同小异,服务的对象不尽相同,有专攻一个领域的,有做全面监测的。如红麦舆情监测系统重点在做金融行业,已经形成了成熟的工作流程和方法;新华舆情在线主要是专为中央有关部门服务的。第二,宣传的重点不同。大多数机构强调自己的技术实力,只有部分舆情监测服务机构强调自己的智力和人才资源。如清华优讯,倡导是“中国目前唯一一家可以监测电视、报刊、网站、论坛、博客、微博的全媒体舆情监测服务商。”第三,对新产品开发的重视程度不同。以软件系统著称的技术派在其网站的主页上只有案例库汇集,缺少衍生品的开发,而依托主流媒体或者高校的舆情监测机构非常重视衍生品的开发。

我国舆情监测业存在的问题

从目前的情况来看,我国的舆情监测业存在的问题主要表现为以下几个方面:

舆情监测机构的专业人员严重缺乏。虽然有许多舆情监测机构在广告中都提出依靠软件系统能解决大部分问题,但是仍然需要舆情分析师结合软件数据,撰写人工分析结论。目前,国内的舆情分析师大多数由传统的新闻宣传工作者转型而来,但是离市场的需求还有相当大的人才缺口。据相关机构调查显示,我国专业舆情人才缺口现已超过120万。②

舆情服务机构的产业链不完善。国内的一些公司如大旗网、蓝色光标等,它们提供的服务比较简单,大都是企业发生危机后进行灭火工作。还有一些舆情监测公司更像是体检中心,不具备预警和危机应对功能,客户在得知自身问题后,也不能采取专业有效的措施去处理危机。从舆情监测的产业链上看,整个行业由舆情监测、分析、应对处理多个环节构成。从用户需求的情况来看,用户需要的是“高质量的监测平台+专业的舆情服务”,而不仅仅是一个监测软件。与此同时,传统媒体作为舆情产业链上的一环,作用虽然非常重要,但从目前来看,它们往往处于产业链的下游,自主性严重不足。

重视对客户的服务,忽视对民意的研究。目前一些网络监测机构只强调对政府和企业的服务,对网上舆论则采取“堵”的解决策略。甚至还有一些专门的“删帖公司”,甚至有一些舆情监测公司就在自己的网页上明确写着可以替客户“删除负面信息”,这种同时兼营网络删帖业务的舆情监测公司在行业内大概占到20%。③还有一些地方与部门不是着眼于研究民意、改进工作,而是想借助舆情监测和监测机构或主流媒体建立联系,以便帮助他们监控和处理负面信息。

舆情监测行业规范尚未建立。由于目前有关管理部门尚未出台严格的行业规范和标准,一些商业网站、广告公司、营销公司、公关公司等,也开始纷纷涉足网络舆情监测业务,不规范的业务运作使得“网络删帖”、“网络水军”等大量出现,严重影响了舆论监测行业的健康发展。截至2012年1月,经过工信部软件司认定登记颁证的“舆情”软件共有约68款,市场上还大量存在未经认证的同类软件。在舆情监测产业壮大的同时,呼吁推动舆情服务业透明化、规范化的呼声也越来越多。

我国舆情监测机构的发展路径

加强专业网络舆情分析师的培养。舆情监测软件和平台提高了效率,但人工分析仍是重点。在舆情分析师这个新职业群体中,虽然不乏搜索引擎专家、网络调查专家、统计高手、图表专家等“高技术”人才,但是分析师们所需要的不仅仅是技术。舆情分析师的五大基础技能包括挖掘与收集网络舆情信息、概括剖析网络言论、抽样统计网络舆情数据、撰写舆情分析报告、预测舆情走势。一名合格的网络舆情分析师,除了要有舆论学、传播学、统计学、公共管理学等学科的理论知识以外,还应具备很强的新闻敏感性、舆情分析研判和危机管理能力,熟悉网络舆情抽样、统计、分析工具和模型,对社会心理与网络语言文化有长期观察研究。作为独立的第三方,舆情分析师树立稳定的价值观至关重要。除此之外,还必须了解突发事件演变规律及舆情分析研判能力。

舆情监测机构与高等院校或科研所或新闻媒体结合,实现业务实践与理论研究、硬技术与软实力双赢。大数据时代舆情监测机构要想谋求很好的发展,必须走强强联合之路。具体来讲,就是高等院校或科研所或新闻媒体相结合,实现业务实践与理论研究、硬技术与软实力双赢,这在舆情监测业界已经有不少的成功案例。如2012年9月,红麦聚信(北京)软件技术有限公司与暨南大学成立“暨大—红麦舆情研究实验室”,以红麦舆情监测系统技术平台为基础,收集和处理网络、微博舆情信息数据,提供给实验室作为舆情研究的数据;实验室依据红麦软件提供的网络、数据,制作舆情深度分析报告。

整合资源,开发新产品,构建完整的网络舆情监测产业链。舆情监测机构要选择战略合作伙伴,有效地整合资源才能提供快准全的舆情、竞争情报等业务。如红麦软件与华声财讯成功携手,将技术、服务、业缘关系等优势完美结合。2012年8月,两家签署全面战略合作伙伴协议,携手进军在云计算、大数据背景下的业务情报市场。经过资源整合,促进彼此的发展。总的来说,当前舆情业从监测、处理分析到应对的整个产业链条上都已经有了足够多的竞争者。对于未来,谁能将整个链条打通并有效整合,谁将是未来的最大赢家。④

研究客户需求和网络民意,促进两个舆论场良性互动。研究客户需求,就是针对不同需求的客户,开发出几套特定的监测系统,进行舆情预警、危机指导、危机公关与修复、媒体沟通、法律维权等全方位的服务。研究网络民意,就是对网络上反映的问题在第一时间发现并及时处理,变堵为疏,而不是无视民意,任期发酵,让其成为“烂尾”新闻。

“大众麦克风时代”,民心可敬、民意可畏、民气可用,舆情监测机构要本着中央“三贴近”的要求,善于从群众利益角度,触摸民意脉搏,从基本事实的认定到价值判断,乃至话语方式,与网民坦诚交流;同时让党和政府的声音进入网络社区,推动互联网上官民的顺畅沟通和良性互动。

(作者单位:南阳师范学院新闻与传播学院;本文系河南省2013年软科学研究计划项目成果,项目编号:132400411125)

【注释】

①高忠业:“青岛入列首批国家舆情师培训计划”,《青岛财经日报》,2013年5月8日

②李光:“百亿市场前景催生网络舆情监测业”,《凤凰周刊》,2010年7月5日。

第2篇

关键词:智能检测与分析;网络舆情;数据挖掘

中图分类号:TP393文献标识码:A文章编号:1009-3044(2011)04-0759-03

The Design of the Detection and Analysis of Public Opinion Intelligent Network System

YANG Qiu-ping

(Dongguan University of Technology, Network Information Center, Dongguan 523808, China)

Abstract: We pay more and more attention to network public sentiment. Especially, the government concerns the net post and net news of emergencies and important events. Then, the special systems for analysis network public sentiment exist. Firstly, this article analysis the systems of network public sentiment, and then finds out their shortages and study the correlative techniques. At last, this article introduces a new way to build a network public sentiment detecting and analysis system.

Key words: intelligent detecting and analysis; network public sentiment; data mining

随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网络言论活跃已达到前所未有的程度,不论是对国家政策的讨论,还是针对国内或国际的重大事件,都能马上形成网上舆论,这种网络来表达观点、传播思想产生舆论压力,达到任何部门、机构都无法忽视的地步。

网络舆情通过BBS论坛、博客、新闻跟贴、转贴等形式对现实生活中某些热点、焦点问题等进行反应,其中不乏较强影响力、倾向性的言论和观点。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。

1 系统价值

1.1 社会效益分析

网络舆情智能监测与分析系统利用数据挖掘技术实现对网络舆情的统计分析,并以此作为网络舆情监测的管理的依据。具体作用表现在以下几个方面:

1) 系统向决策者提供客观、准确的舆情信息,有利于决策者做出正确的决策

2) 系统向决策者提供系统的、高效的、综合的、全面的舆情信息,便于决策者全面的、正确的把握所需的信息, 提高决策效率, 启迪决策思维

3) 系统能提供各种舆情的趋势分析信息给决策者

1.2 经济效益分析

目前,由于互联网的日益普及,各种舆情的不断涌现,好的、坏的都有。政府部门、大型机构、社会企业等都希望能尽早识别不良倾向的、带有煽动或甚至含有社会危害的言论,或者是获取政策落实、制度实施效果等信息。这些需要揭示了系统建设在带来巨大的社会价值的同时带来巨大的经济效益。

2 同类系统现状

基于目前的网络现状,为数不多的网络舆情监测系统基本上是采用关键词搜索进行舆情信息检测,由于关键词搜索的查全率和查准率都不高,因此网络舆情监测的效果不够理想,更是无法自动发现新的舆情点。

部分网络舆情检测系统只是在企业内部使用,无法适用于政府部门等大型机构,部分系统采用的算法效率低,不能快速对数据进行处理,因而无法满足超大网络环境下的舆情检测与分析,无法做到自学习成长,没有类似知识库的自动累积处理功能,必须人工协助处理。基于此种情况,提出创建《网络舆情智能检测与分析系统》项目来解决这些问题。

3 网络舆情智能检测与分析系统简介

该系统核心部分包括信息获取、信息处理、前端信息展现几个部分。实现从网页获取数据,利用数据挖掘技术对数据进行清洗、提炼、分析总结,最终形成决策信息并存入数据库中,提供灵活的前端查询机制,把信息传递给决策人员。

网络舆情智能检测与分析系统实现以下目标:1) 对热点话题、敏感话题识别。2) 实现倾向性分析。3) 实现对舆情主题的跟踪。4) 自动形成舆情摘要。5) 形成趋势分析报告。6) 自动识别突发事件及发展趋势。7) 对敏感内容实现预警。8) 提供舆情分析统计报告提供决策支持。

4 系统关键技术研究

4.1 网络舆情行为模式识别技术

对于“行为模式识别”算法应用最广和成熟的是防垃圾邮件的“行为模式识别技术”。在垃圾邮件的行为模式识别技术的基础上,根据网络舆情的特点,舆情内容内在结构关系、演化规律等基础信息,收集网络上典型的热点话题、敏感话题、政策热议等方面的适当数量的文章组成行为识别学习训练库,利用网上话题的热度、焦度、敏度、频度、锐度、歧度、粘度等度量指标作为舆情分析的依据,配以科学的算法,通过对“训练库“进行学习及总结、计算,结合网络舆情信息产生和传播的典型行为特征,建立网络舆情行为模式数学统计模型,以此实现网络舆情的智能发现。

4.2 自动分类和聚类技术[1]

自动分类是指按照已有的分类,把相关信息按照分类的标准进行归类。聚类则事先没有定义特点的分类及标准,是在分析过程中利用一定的算法,把类似的内容进行自动划类并聚合的处理过程。

根据舆情分析的特点,本系统基于统计的自动分类技术,利用向量空间模型来表示舆情分析的文档。对舆情文档特征进行抽取和加权、机器学习。在处理过程中,考虑到不同位置出现的语词的价值不同而给定不同的加权系数。机器学习的方法主要有支撑向量机、最近K邻居方法和贝叶斯算法[2] 等,可以根据舆情文档的特点而选择相应的方法。

舆情文档自动聚类的关键步骤有文档表示、相似度计算、聚类和给出聚类标识等。常用的聚类方法有单遍聚类法、逆中心距聚类法、密度测试法、图聚类法等。在网络舆情分析中,根据舆情分析的目的,选择那些最具有区分性的特征,而不是大多数文档都具有的特征来实现自动聚类。

在本系统解决方案中采取了自动归类和自动聚类相结合的方式,先进行自动归类,再在各类别之下进行自动聚类。

4.3 内容分析技术

内容分析法是一种对于传播内容进行客观,系统和定量的描述的研究方法。其实质是对传播内容所含信息量及其变化的分析,即由表征的有意义的词句推断出准确意义的过程。内容分析的过程是层层推理的过程。随着信息技术的发展,计算机的性能不断提高,各种内容分析技术也逐渐成熟,为网络舆情的深度挖掘分析奠定了很好的基础。

《内容分析法:媒介信息量化研究技巧》[3]一书提供了系统全面的内容分析研究的操作指南,深入分析了内容分析中的各种常见问题,如测量、抽样、信度、效度和数据分析中的各种技术。在进行网络舆情内容分析前,获取相关网络舆情数据,经过数据清洗,获取有针对性的、信息量大、覆盖全面的、连续的内容样例,定义分析单元。对数据进行量化处理形成评判记录和进行信度分析两部分内容,再根据网络舆情建立合适的维度,最后进行统计分析,并形成分析结论。

5 系统实现

在系统开发过程中,要建立了若干知识库,利用垂直搜索、知识发现、自动分词和抽词、自动分类和聚类、内容分析等技术,实现对海量网络信息进行监测、网络舆情的自动发现和分析。该系统建设的核心是要收集围绕主题的、足够量的数据,并经过整理形成规范数据再进行挖掘,输出有用的决策信息,系统结构图如图1所示。

系统涉及五个主要方面:

5.1 数据收集处理

进行网络舆情分析的前提是获取基于某个主题的、数量足够多的、完整的网络数据。为了解决这个问题,系统建设时考虑通过建立数据收集规则来达到此目的。在数据收集规则时主要考虑要收集的主题、要搜索的范围、更新频度、收集要到达的数据量等。

在规则制定后,信息收集组件利用类似“网络爬虫”的技术,按照已经设置的收集规则,到网络上进行数据收集。 数据收集后按照主题归于相应的数据库中,以便下一步的数据处理。

5.2 信息处理模块

需要把收集的数据转为有用的信息,在收集到相关数据后,先期对已经收集完成的数据进行格式化、数据清洗、信息处理加工等步骤,最终形成规范的、适于统计的数据。然后再利用数据挖掘技术对数据进行挖掘,形成相应的统计信息,便于查询输出。下面将就关键核心的处理步骤进行说明。

5.2.1 对原始数据的预处理

为了在数据挖掘分析前对数据进行预处理,形成最终有效的待分析数据。首先是继续数据格式化,利用数据格式化实现对各种网页格式的数据进行模式化解析,形成系统统一的数据格式;然后进行数据清洗把“脏”的“洗掉”。该处理步骤主要把不完整的数据、错误的数据、重复的数据等不规范的数据进行清洗,去除无效的、重复的数据,形成数量足够的、时间段连续的、内容围绕主题的数据,为下一步的深度挖掘做准备。

5.2.2 实现对敏感舆情的报警

为了解决相关管理人员需要及时掌握敏感热点或大事件的动态,系统特增加了此处理步骤,在此将利用对敏感热点或大事件的特征进行布控,在布控策略规则中设置需要关注的热点敏感关键字,相关组件将对存储的内容进行扫描、分析。对匹配上的内容进行预警并产生预警记录,同时支持手机和邮件的报警方式,及时把相关信息发送给预设的人员。该模块包括关键字匹配组件、报警处理组件。

5.2.3 数据的深度挖掘分析处理

经过预处理的数据还只是数据,并没有形成有用的信息,所以引入数据挖掘分析处理步骤,以便对数据利用前面介绍的舆情行为模式分析、内容分析等挖掘技术进行深度挖掘及分析,形成系统的核心信息数据,为数据展现提供数据来源。

为了对数据进行挖掘,系统内置的多种数据挖掘算法,实现自动对信息进行分类、总结。具体内容如下:

针对中文信息的处理与分析,系统中的自动分词组件采用词典和规则为基础,综合利用了基于概率分析的语言模型方法,使分词的准确性达到99%以上。在语义分析的基础上,综合考虑词频、词性、位置信息,实现准确的自动关键词与自动摘要。利用网络舆情模式识别技术可以自动发现新的网络舆情模式,便于用户尽早布防。

为解决自动分类的难题,系统内置自动分类组件通过对训练库的学习,获取每个分类的属性特征模型,然后使用这一分类体系对未知分类情况的数据进行分类。聚类组件将结构化的数据集合中的数据根据需要统计的主题划分不同的子集,自动学习形成新的分类,满足自动扩展分类的需要。

面对收集的海量数据,如何获取用户所需的信息这个是一个关键问题,系统通过关联分析、趋势分析,从海量数据中挖掘关联规则。同时,利用趋势分析技术,分析网络舆论等随时间的发展趋势情况,以便实现对舆论环境的监测与不良倾向的预警。

做到上面的内容还只是实现了系统的一部分,系统另外提供对新的知识的自动发现。利用自动分类与聚类等技术基础,对知识进行挖掘并汇总分析,能实现对新的网络舆情的发现及获取发展趋势。同时把结果合并到系统已有的知识库,达到不断扩展知识库的要求。

有时候用户会要对特定的事件或舆情进行跟踪,为了解决此问题,通过系统提供的对象跟踪组件,利用用户在系统中设置的需要特别跟踪的对象的特征,在分析过程中对涉及该对象的数据进行特别分析和处理,形成该对象的信息链存储到数据库中,在数据展现时可以通过图表等方式展现对象跟踪链的相关信息。

5.3 海量数据的存储

网络舆情数据量是海量的,如何提高查询的反馈速度是另外一个重要的问题,系统通过建立全文索引技术,对存储在数据仓库中的数据建立合理的索引,使数据查询输出时提高输出速度及准确性,特别是针对重要的关键字进行检索时能大大的提高查询速度。

除了全文索引,数据管理系统的选择是另外一个重点。考察目前已经成熟的数据库管理系统,发现Oracle是最合适的。所以本系统就采用Oracle作为数据存储的数据库系统,同时可以利用其提供的多维查询技术,实现Olap的查询要求。

5.4 数据快速,准确的展现

有了海量的、有用的信息,如何把这些数据展现给用户?在本系统主要考虑对关键字的查询输出、舆情新关键字挖掘查询、舆情报告的输出、报警信息的查询、各种统计报表的输出。

对于输出的技术要求,在数据输出时系统利用Oracle系统的Olap技术结合系统提供的查询页面框架,可以实现用户从多个角度对各类数据的查询,在页面处理上目前市面上已经有相关的成熟的技术可以作为参考,相信不会有技术难点。

针对输出的内容,系统内置了部分统计报表,这些报表是基于网络舆情分析专家在舆情检测与分析方面的专业知识进行设计,能满足大多数用户的需要。为了满足个性化的查询输出,同时系统支持用户自定义适合自己的统计报表。

5.5 通过系统管理功能保证系统正常运行

为了满足个性化的管理要求,系统提供系统设置、角色管理、用户管理、数据备份等功能,支持定义常用的网页结构及识别规则的定义,用于在数据获取后的格式化分析。解决网页结构识别规则定义、报警关键字设置、报警记录接收手机号或邮箱设置、系统管理用户权限管理等内容。

6 小结

该文先介绍了目前网络现状、同时就同类分析产品的不足进行了描述。另外着重从《网络舆情智能检测与分析系统》的两个重点部分进行描述,从最核心的技术与模块组成来阐述系统是如何实现的。

参考文献:

[1] Han J,Kamber M.数据挖掘:概念与技术[M].Morgan Kaufmann,2000.

第3篇

关键词:微博; 舆情监测; 舆情分析; Scool; NoSQL

中图分类号:TP311 文献标识码:A文章编号:2095-2163(2013)02-0050-04

0引言

目前,随着网络全球化的进程加快以及移动技术的推广,微博已经成为了网络舆情的主要源头和有效传播路径。由于微博具有的进入门槛低、操作便捷、互动性强等特点,近两年在全国得到了迅速的普及,获得广泛的应用。但是不可忽视的隐患也随之呈现。微博已经成为了各种谣言和违法信息滋生、蔓延的主要平台,对社会也造成了无法预知的不良影响。因此,开展微博的舆情监控和分析研究已是大势所趋,势在必行。

1研究现状

目前,已有针对网络舆情分析和挖掘的软件产品,较典型的有 Autonomy 网络舆情聚成系统、Goonie 互联网舆情监测系统、TRS 互联网舆情信息监控系统、方正智思舆情预警辅助决策支持系统、中科点击(北京)科技有限公司研发的军犬网络舆情监控系统等。这些系统均能对网络舆情发挥一定的监测、分析和预警的作用,为社会和谐稳定提供了有效的技术和决策支持。虽然如此,但针对微博舆情监测和分析的大部分系统却没有充分考虑到微博用户基数大、覆盖面广、数据量巨大、更新速度快的特点,而在这种情况下,采用普通的关系数据库显然无法满足要求,因此,引入NoSQL技术存储数据则是一个颇有前景的发展方向。

2微博舆情传播特点

基于上述对微博使用方式的分析,决定了微博舆情的传播将具有如下特点:

(1)信息生成和传播简便。只要简单操作,就可以第一时间关注微博新闻中的相关人物,或转发传统新闻和论坛中的内容,而且由于移动终端对微博的支持,微博就超越了时间与地域的限制,完全实现了微博的简便简易性。

(2)传播信息快捷。仅以“7 .23”动车事件为例,2011 年7 月23 日晚20 点38 分事故发生,4分钟后网友发出了第一条微博,比传统媒体提早了两个多小时。

(3)病毒爆发式的信息传播模式。消息一经发出,用户的所有关注者都能收到,而这一群体再亦如此继续向外传播,则微博信息就呈现了病毒爆发式扩散传播的态势。

3基于noSQL的数据库设计

NoSQL最初出现于2009年6月11日由Oskarsson在旧金山发起并组织的一个非正式会议上。NoSQL是当下数据库家族的外来者,虽然有些通用的特征,但却没有一个特征得到了明确定义。

根据舆情监控系统的数据实际情况,在其系统的数据库设计中引入NoSQL,当写入数据时,可在MySQL、NoSQL中分别写入一条数据的不同字段,而读取数据时,则从MySQL、NoSQL组合字段完成读取。这一读/写过程如图1所示。

在如图1所示的组合结构中,MySQL中存储着需要查询字段中的数字、时间等类型的小字段,其后按照查询建立相应的索引,而NoSQL中则存储着包括大文本字段在内的其他并不需要的字段。查询过程可描述为,首先将数据主键从MySQL中查询出来,再从NoSQL中直接取出对应的数据。

文中设计的架构模式使得MySQL和NoSQL能够各自发挥所长,即由MySQL实现关系存储,而NoSQL则实现数据存储。这种设计的优点如下:节省MySQL的IO开销、提高MySQl Query Cache缓存命中率、改进了MySQL主从同步效率、提升了MySQL数据备份和恢复的速度、具有更好的扩展性。

还需一提的是,这种以MySQL为主、NoSQL为辅的架构设计与MySQL的单体架构相比,系统的多样性能和可扩展性均得到了有效提高。

4基于微博的Scool舆情监测分析系统设计与实现

基于微博的Scool舆情监测分析系统旨在取代传统的人工收集和监控工作,实现深入、高效挖掘,并实时得到微博网络中相对敏感的舆论信息,以警示管理人员及时采取相应措施。

基于微博的Scool舆情监测分析系统的实现过程是,每日需定时、周期地对新浪微博、腾讯微博、网易微博、搜狐微博进行网页抓取后,并对其内容实行解析后存入数据库,而后通过分词索引以建立搜索引擎,实现数据索引,再通过用户设定的关键词库对采集的数据进行关键词集过滤,由此获得敏感舆情信息文本返回给用户界面。系统还应对收集的信息进行自然语言处理,从而识别得到热点话题和热门事件。

4.1软件体系结构

系统分为后台数据分析模块和前台数据展示模块。后台模块负责实现数据抓取与分析,是系统的核心。前台模块负责完成微博、Web数据展示和基本维护操作。

4.1.1前台结构

前台展示程序分为四大块,分别是:舆情信息展示、舆情搜索、用户监控网址和关键词设置、用户登录与管理。其中,舆情整体全面展示则按五类来进行和表现,分别是:最新舆情展示、按网站类型展示、按监控网址展示、按话题事件展示和舆情统计。前台模块的结构框架如图2所示。

前台展示程序主要基于JAVA开源SSH框架来进行构建而得以实现,其设计结构如图3所示。

在本系统的架构设计中,将在表示层上构设的Struts框架,在业务逻辑层构设的Spring框架以及在数据访问层构设

(1)表现层使用JSP来实现构建,为客户端提供对应用程序的访问;

(2)控制层接受客户端的请求,并根据不同的请求调用相应的事务逻辑,再将处理结果返回到相关的页面;

(3)业务逻辑层用来提供相关的业务逻辑;

(4)数据访问层提供对数据库的各种操作。

系统设计中的三大框架有机配合、协调统一,其各自实现功能为:

在表现层中,由Struts框架负责处理JSP页面的请求和转发工作;在系统中用Hibernate来封装数据库的连接类,通过该框架所提供的注解方式实现了实体类与数据库表结构间的映射关系,并由该框架完成在数据访问层与数据库间的交互工作,再通过Hibernate框架的二级缓存EHCache提供对用户关键词和行业恶劣情感词的高效缓存。此外,系统使用Spring框架作为系统运行轻量级的容器,负责在业务逻辑层处理业务逻辑工作。通过在配置文件中设置对象的创建方式及对象之间的关系,即可由Spring框架的IoC的容器来创建对象,同时也维护对象之间的依赖关系。通过这三大框架的整合,有效降低了系统中各模块之间的相关性,由此形成一个结构科学、功能强大和层次清晰的框架体系。

4.1.2后台结构

由图6可知道,后台结构可分为数据缓冲池队列,线程池线程和数据库三部分。其中,缓存队列负责数据流的来源,关键处理流程则拆分至各个线程中独立实现;线程控制数据缓存池中数据流的走向,各线程本身的并发运行均交由线程池实现统一管理。数据库则采用上述的NoSQL与关系数据库相结合的对应技术来主导实现。

4.2系统实现

用户注册、登录系统后,可以点击页面上的相应标签来查看有关的舆情记录。同时,系统也会将每天最新的舆情记录完整、清晰地呈现。用户还可以点击更多的舆情链接来查看当日之前任何一天的舆情记录。

可以点击系统主页上的舆情搜索标签来进行包含指定关键词的舆情记录,搜索页面如图7所示。在输入框中输入关键词,就可以看到相关的信息。

5.结束语

在Scool舆情监测和分析系统设计与实现过程中,有关信息存储方面,本文主要提出了NoSQL和MySQL相结合的方法。实验证明,采用这种信息存储的方法可节省MySQL的IO开销、提高MySQL数据备份和恢复的速度、且比以前更容易实现扩展。对其后类似系统的设计提供了有益借鉴,并显示了一定参考价值。由于时间及技术的限制,测试和抓取的数据还不够连续和充分,下一步仍可继续完善和推进这一方面的工作。

参考文献:

[1]贾焰,刘江宁. 微博的舆情特点及其谣言治理[J]. 图书情报知识,2012(6):7-9.

[2]张玉峰,何超. 基于Web挖掘的网络智能分析研究[J]. ITA,2011(4):64-68.

[3]汝艳红. 微博信息传播的特点及发展趋势[J]. 青年记者,2012(8):27-30.

[4]钟瑛,刘利芳. 微博传播的舆论影响力[J]. 新闻与传播研究,2013(2):8-12.

[5]FOWLER M. NoSQL Distilled[M]. 2009:1-20

[6]齐海凤. 网络舆情热点发现与事件跟踪技术研究[D]. 哈尔滨:哈尔滨工程大学,2006:11-30.

第4篇

关键词 情报学;硕士论文;关键词

中图分类号G251 文献标识码A 文章编号 1674-6708(2014)114-0013-02

当前,世界各国的许多高等院校和科学研究机构都在加强对图书情报的研究,许多世界一流院校,比如Harvard University(哈佛大学)、Princeton University(普林斯顿大学)、Yale University(耶鲁大学)、Massachusetts Inst. of Technology(麻省理工学院)等都建立了比较完善的情报学教育体系。而比较而言,在我国高等院校与科研院所对图书情报学的相关研究,明显要相对落后,近年来随着改革开放的深入推进,有关情报学的招生和课题研究有所提升,并呈现出较为快速的增长态势,然而由于研究内容相对较为高深,而且研究的靶场显得较为前沿化与多元化。基于关键词对学位论文进行统计、研究与分析是文献计量学的范畴,是图书情报学研究的重要内容。即以学位文献或学位文献的某些特点为标的,以聚集梳理一定数量文献为基础,由此展开对某一时域某一领域科学技术基本状况与基本特征的研究,并由此论述和预测该领域科学技术在今后一段时期的研究趋势与特点规律态势。基于独特关键词进行图书情报领域的硕士学位论文进行分析,是情报学研究的一项重要方法,是一种将文献资料中的众多核心要素关联起来,进行统计分析的引证分析方法,其可以较为科学地评价文献所研究与发展的现状和趋势,揭示学科当时研究的热点,较为准确地评价文献所代表的学术水平。

1 研究对象数据来源

本文研究的对象定位于对国内图书情报领域这一总体框架,并于此基础上将“靶向”集中于硕士学位论文的统计、分析与研究,将“靶标”聚集到硕士学位论文的研究热点、趋势、重点、前沿以及其变化情况,从而更加清晰地梳理出我国情报学研究的发展脉络,从而为我国情报学教育发展提供参考。研究的主要数据来源集中于国内著名的学位论文收集库――中国知网CNKI学术文献总库、维普期刊资源整合服务平台与万方数据知识服务平台“三大论文数据库”,以及国内高等院校图书馆自建特色数据库。其中,中国知网CNKI和万方数据库是国内收录学位论文最为全面的数据库,因此,为了确保分析研究的数据具有较高可信度与代表性,分析研究检索的数据源即来自该两个数据库,着重定位于“学科专业名称”、“学科专业分类”选项进行检索,而检索的时间区域定位于近10年,对于两个数据库检索出来的文献,对于相同的通过采用SQL 语句进行筛选,剔除重复的以及不符合的。

由此,以“情报学”作为检索词,从中国知网CNKI数据库获得1640篇硕士论文,从万方数据库中获致1315篇硕士论文,通过SQL筛选剔除重复的以及不符合的795篇,总共获得有效国内图书情报领域硕士论文2160篇。

2 基于高频关键词的国内图书情报领域硕士学位论文特点

通过对获取到的2160篇国内图书情报领域硕士论文进行研究,综合统计论文的关键词,累计关键词有13976个,经过分析研究,去除不能表达论文主题概念的关键词3645个,共得10331个,平均每篇硕士文献关键词数为4.78个,由此可说明该统计是科学的,与国外科文献资料对关键词的标引规则相符(国内外科技期刊要求的每篇关键词应标出 3-8 个),接着对关键词的词频进行统计分析,将关键词的频度大于60作为标准,将其定义为“高频词”,通过对“高频词”的统计分析,可以非常清晰地看出,有关“知识管理”这一主题的频次最高,多达126次。无疑,这也证实了近些年来,学术界对知识管理这个方向的研究热点。此外,“电子商务”为121次、“信息化”为118次、“信息技术”为112次、“竞争情报”为102次、“信息服务”为98次、“信息检索”为96次、“数据挖掘”为87次、“数字图书”为84次、“信息资源”为79次、“电子政务”为75次、 “知识服务”为71次、“知识共享”为68次、“数据仓库”为63次,从中也反映了我国对信息化建设、知识服务、数字化建设等关注在日益提升,也验证了我国国务院学位委员会重新颁布的《授予博士、硕士学位和培养研究生的学科、专业目录》中“图书馆、情报与档案管理”的实效,表明了情报学与管理学之间渗透和结合日益加强,也可以折射出当前研究的重点、热点仍然集中在情报学基础领域,并预示着今后情报学研究的一个重点将是对网络信息资源的开发、整合与利用。

3 基于聚类共词的国内图书情报领域硕士学位论文特点

通常来说,仅仅通过孤独地察看论文的某一关键词,通常是难以有充足的理由说明该论文所研究的主题,然而通过关注两个或者两个以上的关键词,将可以给予人们更加充分的信息去把握论文的大致内容和论文的主题脉络。通过采取计算机数字高效处理作用,充分发挥Excel的数据透视功能,再次对出现次数高于60的高频出现的关键词进行“聚类性”分析,统计在同一论文中两两同时出现的关键词,从而构建出60 × 60的“聚类共词矩阵”,通过这一矩阵的研究,非常清晰地显示出“聚类共词矩阵”是一个对称矩阵,其中位于矩阵对角线上的数据显示的是某关键词自身一同出现的频次,这个一同出现的现象就实质来说,就是论文之间的相关度,对于非对角线上的数据,则表示不同关键词之间的共现频次。通过这个矩阵可以从另一个侧反题出,关键词分布既有交叉、相互渗透又具有群组分布的独立性。通过Excel的数据透视处理得到共现频次较高的有:“知识管理”为124次,“电子商务”为106次,“竞争情报”为101次,“高校图书馆”为98次,“信息服务”为92次,“数据挖掘”为87次,“数学图书馆”为83次,“信息资源”为81次,“电子政务”为79次,“知识共享”为72次,“数据仓库”为66次。由此可以看出,在国内图书情报领域硕士学位论文的研究主题中,当前基于数字化、信息化、电子化的知识管理与数据挖掘是个热点,同时也说明我国情报学教育研究的领域在不断拓宽。

综合以上,关注独特关键词下国内图书情报领域硕士学位论文研究的学科结构特点,获得了基于高频关键词的国内图书情报领域硕士学位论文特点,以及基于聚类共词的国内图书情报领域硕士学位论文特点,通过对研究结果的比较分析,得出了一些有较为充足理由支撑的结论,那就是从中可以较为清晰地得出,当前以及今后一段时期国内图书情报领域硕士学位论文研究的侧重点在于“数字化、信息化、电子化的知识管理与数据信息挖掘”。

参考文献

[1]曾学喜.网络舆情突发事件预警指标体系构建[J].情报理论与实践,2013(11).

[2]Miao Adam X,Zacharias Greg L.A computational situation assessment model for nuclear power plant operations[J].IEEE Transactions on systems,Man and Cybernetics,2011(9).

第5篇

关键词 科技;宣传;机制;对策研究

中图分类号G206.3 文献标识码A 文章编号 1674-6708(2012)58-0006-02

经历改革开放30年后,广东科技工作站在了一个新的发展起点,肩负着以“科学发展、先行先试”为动力加快建设创新型广东的历史重任。在新的形势下,加强科技宣传工作尤为重要和迫切。加强科技宣传工作,是深入贯彻落实国家和省委、省政府新时期科技发展方针政策和决策部署,切实把增强自主创新能力贯彻到广东现代化建设各个方面的需要;是增强全省推进自主创新决心和应对国际金融危机信心的需要;是广泛集聚人才、资金、项目等创新要素的需要;是提高全社会科技意识和公众科学素质,不断优化广东自主创新环境的需要。广东科技宣传要按照“大科技配套大宣传,大宣传服务大发展”的思路,创新宣传方式,加强科技宣传工作。为各项科技工作顺利开展提供有力保障,为全省自主创新营造良好社会氛围。

1 广东科技宣传工作现状

1.1 建立科技宣传组织机构,健全媒体联络制度

广东省科技厅于2003年成立的省科技宣传小组围绕广东科技工作中心任务,制订科技宣传工作计划,向主流媒体提供新闻报道线索和深度新闻背景。该小组通过不定期召开科技新闻会、科技新闻通气会和科技新闻工作者联谊会,及时向主流媒体通报科技工作的进展情况,积极配合新闻媒体做好科技宣传报道工作。近年来,每年都开展的全省科技系统信息宣传员业务培训工作,更邀请了省政府和科技日报有关专家举办科技宣传知识讲座。为了提高科技记者业务水平和深入科技报道的积极性,广东各级政府科技部门积极组织科技好新闻评比活动和科技传播论文评选活动,促进了科技宣传队伍整体水平的提高。近年来,由广东科技新闻工作者协会牵头组织年度科技好新闻的评选活动。2010年,第13届广东科技好新闻评选活动中,南方日报社、科技日报社、人民日报社、羊城晚报社、科学时报社及广东电视台、广州电视台等7家媒体的作品荣获一等奖。另外,有52篇作品分别获得二、三等奖。通过这次活动,进一步密切了科技管理部门与新闻媒体的联系,调动了科技记者的积极性。

1.2 建立了一个多层次的科技宣传平台

目前,广东省科技厅已经建立了以主流媒体为主,横向覆盖报纸、广播、电视、网络,纵向贯穿地市媒体的大范围,多层次的科技宣传平台。它们包括:中央主要媒体《人民日报》、《科技日报》、新华社、中央电视台、中国新闻社、《高新技术产业导报》,省内主要媒体《南方日报》、《羊城晚报》、《广州日报》、《南方都市报》、广东电视台、广东电台、南方电视台,地市主要媒体《深圳商报》、深圳电视台、《佛山日报》、佛山电视台等,港澳媒体《香港文汇报》、《香港大公报》、凤凰卫视等。通过平台内各媒体资源的充分整合,广东省的科技宣传获得了宽广而畅通的传播渠道。

1.3 深入开展主题宣传活动

一方面,广东省科技厅根据每个月或季度的科技宣传重点,积极组织新闻媒体到高新区、重点实验室、科研院所和企业等进行采访,加深了媒体对广东自主创新工作新进展、新做法的了解,搭建起媒体与科研院所、创新型企业之间的沟通桥梁,该做法得到媒体的一致认可。另一方面,紧紧围绕省委、省政府的中心工作,聚焦广东科技工作的重大事件,在做好常规性科技新闻宣传的同时,重点抓好几个专题宣传报道是广东科技新闻宣传的一大特点。此外,广东省科技厅定期召开专题新闻会,均邀请了中央驻粤及省市媒体参与报道,营造了良好的创新氛围。

1.4 以广东省“科技进步活动月”为平台,切实提高科技宣传的社会影响力

自1992年开展首届广东省“科技进步活动月”(下称“活动月”)以来,至今已届第20年。活动月已成为广东省参与面最广、社会效益最显著的科普活动品牌。按照科技部每年的统一部署和省委省政府的有关工作安排,我省组织举办了内容丰富、形式多样的一系列活动,组织和协助各大新闻媒体加大对“活动月”的宣传力度,营造浓厚的科技创新氛围,进一步提高社会影响力。由于“活动月”内容丰富,吸引了中央和省的各大新闻媒体对各项活动进行多种渠道、多种形式的宣传报道,各地方电视台、电台等媒体相应配合当地“活动月”工作的开展,制作了各具特色的新闻报道、专题片等,使“科技进步活动月”的活动参与和主题宣传深入到广大城镇和农村,在全省营造了良好的氛围。

1.5 多渠道开展科技宣传工作

除了主流媒体传播渠道,科技传播由于其传播内容的特殊性和传播过程的复杂性,还存在着其他传播渠道,主要有:一是专业交流渠道,如科技会展业、科技学术会议、科技学术团体进行的正式和非正式交流等,这些专业传播渠道在广东有较为丰富的资源;二是广东高等院校、研究所数量多,高校、研究机构的科技教育也是重要的科技传播渠道;三是面向社会公众的科学普及传播渠道,这类传播形式多样,贴近社会生活,广东开展已久的科技活动月就是代表;四是技术本身转移和采用的传播。有关专家指出,最有价值的科技传播是科技在应用中的传播。广东作为区域经济中心省份,是科技创业的沃土和高新技术成果转化集散地,在聚集和扩散两种基本运动形式下,广东具备了发达的科技传播和扩散网络,与其周边省份以及经济腹地间存在着紧密的联系和科技传播。

然而,面对新形势新要求,广东省科技宣传工作存在的问题日益显现。主要体现在:对科技宣传工作的重视和投入不够、科技宣传网络不健全、科技宣传资源力量分散、科技宣传机制和方法创新不足等。

因此,创新科技宣传工作思路,采取有力措施,只有坚持用创新的理念、创新的思维、创新的手段和方法,不断加强和改进科技宣传工作,才能不断适应形势发展的需要,做到体现时代特点,把握时代脉搏,努力做到在内容上出色,形式上出彩,立意上出新。

2 广东科技宣传工作建议与对策

切实加强科技宣传工作对于扩大科技工作影响,提高全社会科技意识,广泛吸引集聚科技创新资源,增强公众的科技意识和科学素养,加速科技信息传递和科技成果转化,推动全社会科技事业发展都具有非常重要的意义。

广东科技宣传工作的渠道与方法主要从“两个转变”方面着手研究。一是在宣传渠道上研究如何从过去仅仅依靠传统平台,到以传统平台为主、同时注重搭建新兴平台的转变。二是在宣传方法上要从过去大包大揽到注重把关决策转变。

2.1 充分发掘新兴媒体的科技宣传作用,开辟科技宣传的新阵地

不同的物质载体,不同的传播愿望,不同的用户需求,都促进媒体窄众、分众传播的步伐加快。报纸、电视、广播、网络等成熟的大众媒体具有覆盖面广、公信力强等特点,是宣传科技工作重要的、也是主要的渠道,而专业媒体及行业媒体却有着专业性强,报道深刻等大众媒体不可取代的优势。科技工作的宣传就是要注意根据不同层次、不同地域人群对科技信息的不同需求,利用这些成熟的宣传渠道,搭建新的传播平台,进行分众传播。

2011年,科技日报社、科技兴市研究会与广东省科技厅合办的“中国科技报道”网络视频网站就是利用网络媒体和多媒体技术搭建的一个新的传播平台。该平台以科技视频新闻报道和宣传工作为起点,面向全社会逐步提供科技视频信息、查询和咨询服务。在此基础上,不断充实和丰富中国科技报道的信息量,为社会提供多方面、多层次的科技信息。

手机等新兴媒体的出现为科技宣传带来了新的渠道和发展契机。以手机短信为例,由于具有成本低廉、传播迅速、操作简便等强大优势,为以“互动性”和“参与性”为发展趋势的传统媒体所用为新的盈利工具的同时,也应该直接为科技宣传所用,成为新的传播渠道。此外,各地市也应因地制宜地搭建自己的科技宣传平台。有科普场馆的地市,要强化科普场馆的科技宣传功能,利用其场地大、受众广的优势,使其不仅成为科普宣传的阵地,更成为科技工作宣传的窗口。

“高交会”、“留交会”、“科技下乡”、“科技进步活动月”都是广东省科技活动的品牌,我们要把它们作为科技宣传平台,搞小型展览,印发宣传资料,进行分众、定向的科技宣传。据不完全统计,2011年广东省“科技进步活动月”期间,全省共组织各类培训班800多场次,受培训人员65000多人次。组织各类讲座、咨询活动和论坛200多场次,参与群众数万人次。这些科技活动是科技宣传的一个很好的载体。

2.2 注重顶层的科技宣传规划,下放具体的科技宣传事务

科技宣传是项复杂而繁琐的工作,必须有科学专业知识,有科技管理知识,还要有传播理论知识与技巧。作为科技管理部门,就应该遵循社会分工的理念,发动科技企事业单位、高校、科研院所的在职或退休科技工作者广泛地开展科技信息采集工作,发动传播媒体和社会上的宣传专业团体进行科技宣传策划及具体宣传操作。科技管理部门负责对宣传内容的科学性、政治性、重大性,宣传形式创新性,宣传时机的准确性进行把关,学会“牵牛鼻子”。只有这样,科技管理部门才能够从繁琐的事务性工作和自己不擅长的传播专业工作中解脱出来,同时也发挥了社会各界的能动性,为专业传播机构提供更广阔的创作空间。

如2008年,我省举办的纪念火炬计划实施20周年宣传活动,2009年高新区工作会议,2010年产学研工作会议的宣传工作会议,2011年专业镇转型升级会议等重大会议,省科技厅有关处室主要负责对内容、形式的把关决策,电视片的制作、纪念晚会的筹划、举办等工作都交给了社会上的专业机构去操作,宣传活动得到了广泛的好评。

2.3 广东科技宣传工作机制创新

在学习借鉴兄弟省份科技宣传先进经验的基础上,完善我省科技宣传机制,创新科技宣传模式,加强科技宣传工作能力,是打开我省科技宣传工作新局面的重要手段。例如浙江、辽宁分别与当地电视台合办《创新故事》、《创新辽宁》栏目,搭建电视宣传阵地;浙江与省委党报《浙江日报》签订了全年100万元的战略合作协议,规划了全年的专版数量及头版新闻条数。借鉴两省的经验做法,建议广东省科技厅根据不同媒体的特点,优化合作模式,建立战略合作关系,构建立体高效的科技宣传网络。一是划定核心媒体范围,重点加强沟通联系;二是与主要媒体签订合作协议,商定专版版面量、专题(专栏)量及头版头条新闻量,更加系统地组织实施科技宣传工作;三是与电视台媒体建立稳定的合作阵地,以定期播出的形式建立起长效的合作机制。

2.4 组织科技宣传专业化采编队伍

随着宣传工作的不断延伸,亟需一批相对固定的、专业的写作班子来完成重点宣传材料的采写,以提高宣传质量和效率。一是建议统筹安排科技系统内《科技日报》、《广东科技报》、《广东科技》杂志的采编力量,以“人才租赁”(即不自己招人养人,利用现有专业人员力量,给予一定经费支持)等方式,集中3~4名人员组成相对固定的写作班子,负责重要信息和宣传稿件的撰稿等工作。根据宣传计划,适时集中写作班子力量,联合主要媒体做好专题宣传工作;二是与高等院校的新闻学院建立合作关系,由广东省科技厅提供实习场地和必要的条件,校方提供2~3名优秀实习生参与宣传采访和稿件撰写工作。

2.5 设立省科技厅科技宣传工作实体机构

一是在广东省科技宣传工作小组的基础上设立广东省科技厅科技宣传工作小组办公室,负责根据厅党组和厅科技宣传工作小组的工作部署,具体落实有关科技宣传工作任务。二是建立广东省科技传播和舆情分析中心,以进一步整合科技宣传资源、扩大科技宣传渠道、优化科技宣传队伍,提高科技传播效果,

2.6引进专业宣传机构和团队参与策划

在大力培养自身宣传队伍的同时,建议引进外部的专业宣传机构参与策划和实施工作,提高科技宣传工作的专业性和效果。一是与高等院校新闻学院合作开展广东科技舆情监测研究等工作,对科技宣传工作进行动态评价和监测,及时提出有针对性的改进建议,提高科技宣传科学化水平;二是以开设专版、专题等形式,组织主要媒体的骨干力量参与重大科技宣传活动的策划工作;三是组织有实力的传媒咨询服务机构策划实施科技宣传工作。

2.7建立健全科技宣传考核激励机制

完善的科技宣传考核激励机制,有利于提高各地市和媒体的积极性。结合广东省实际情况,一是制定对地市科技局的科技宣传考核激励制度。由各地市科技局划定主要媒体,年底向省科技厅报送该市主要媒体刊登科技新闻的数量,根据广东省科技厅制定的评分规则进行评选,对得分最高的前五名给予一定奖励并予以通报。此外,建议以珠三角经济发达的地市为切入口,建立紧密型的省市科技宣传联动机制;二是加大对媒体记者的激励力度。通过广东省科技新闻工作者协会统计主要媒体全年的发稿数量,对发稿量较多的记者加以额外奖励,并将信息反馈给其所在单位,从而进一步提高媒体发稿的积极性;三是聘请特约记者、评论员和专家学者担任顾问,负责重要新闻稿件的撰写和把关,保证稿件质量。四是与高等院校传播学院进行合作,邀请优秀实习生进入广东省科技传播和舆情分析中心进行实习,并探讨合作开展舆情分析研究工作,加强舆情分析科学化水平。

参考文献

[1]应向伟.创新科技宣传工作的思考.浙江省科技信息研究院―维普资讯.

[2]翟全杰.让科技跨越时空[M].北京理工大学出版社,2002.

第6篇

关键词:依存句法分析, 特征选择, 有监督学习, 模型一体化

中图分类号:TP3911 文献标识码:A文章编号:2095-2163(2013)02-0011-05

0引言

依存句法分析模型可用于精确地自动构建给定句子中词汇之间的依存关系[1]。该类模型可大致分为基于有监督学习和基于文法规则两类模型。基于有监督学习的依存句法分析模型是指使用统计机器学习方法,通过从大量标注语料中学习参数而相应构建的依存句法分析模型。而基于文法规则的依存句法分析模型则指依据专家提炼或数据挖掘的文法规则而凭此构建的依存句法分析模型。两种模型各有优缺点,前者一般可以获得较高的预测精度,但却需要设计大量的标注依存结构的句子作为学习样本训练模型;后者通常不需要设计大量训练样本,但由于专家的知识受限,规则领域适应性较差,导致该种模型预测精度并不高。藉此分析,基于有监督学习的依存句法分析模型具有较高的预测精度,因此,本文将围绕该类模型的研究现状而展开综述。具体内容如下。

基于有监督学习的依存句法分析模型的构建过程一般可分为两步[2]:

(1)学习。给定一个标注依存结构的句子集合,人工构建依存特征模板,再从集合中抽取依存特征。其后,设定模型参数,并在有限步骤内推导得出一个依存句法分析模型;

(2)评价。给定测试集合及评价方法,若该模型的预测结果满足期望值,模型构建完成,否则进入步骤(1)。

有监督学习的依存句法分析模型又可分为基于移近规约和基于图两类。其中,基于图的依存句法分析模型在效率和精确度都有良好表现,因而广受关注。基于图的依存句法分析模型的原理是借助最大生成树算法,实现句子的依存句法分析。例如句子“汉族/nR 医学/n 又/d 有/v 中医/n 之/uJDE 称/n”的依存句法分析结果如图1所示。

在构建基于有监督学习的依存句法分析模型时,主要集中于两个方面:资源建设和特征工程。针对其相关研究,本文给出了较为系统、详尽的综述。在资源建设研究方面,人们通过依存关系映射和主动学习两种方法缓解语料匮乏的困境。通过将源领域中标注依存关系的映射到目标领域实现目标领域的依存关系自动化标注,达到自动化构建目标领域语料的目的,进而在目标领域借助自动标注的语料构建依存句法分析模型;而借助主动学习思想,一方面可选择颇具价值的人工标注对象进行人工标注,扩充标注集合,另一方面也可降低人工标注的工作量。在特征工程研究方面,人们分析了不同特征对构建依存句法分析模型的贡献,涉及的特征包括词汇特征、句子特征,以及语言形态特征等,同时介绍了如何因解决特征稀疏而导致的模型性能下降的问题。此外,具体而深入地分析、评价了依存句法分析模型一体化的优势和不足。

本文的组织结构如下:第二部分针对语料匮乏、特征选择和获取、以及模型一体化问题,详细比较和分析了现有模型的研究现状;第三部分从事件抽取、产品评论分析,以及舆情分析角度说明了现有模型最近的应用情况;最后总结现有模型研究并对未来可能研究方向给予展望。

1基于有监督学习的依存句法分析模型

1.1标注语料匮乏

近年来,在标注语料匮乏研究方面,人们借助依存关系映射和主动学习方法改进标注语料不足的状况。在依存关系映射研究方面,已有学者采用规则过滤[3]、适应性标注方法[4]、动态规划方法[5]解决源领域和目标领域之间的差异,但效果并不明显。Jiang等[6]采用一种依存结构映射策略,将源领域中丰富的依存关系映射到资源短缺的目标领域中,实现目标领域依存关系语言的自动构建。例如,将标注依存关系的英语语料中的依存关系映射到中文语料中,实现中文语料的自动标注。实现依存映射时,若采用词对齐方法实现依存关系映射,映射过程中会产生词对齐的错误和不同语言之间因句法差异产生的错误。与已有方法不同,作者采用的映射方法不是将整棵句子依存树映射到目标领域,而是映射词汇依存关系。给定词对齐双语语料,源领域的句子标注了依存句法结构,其中的依存关系是布尔型,表示是否存在依存关系。而后将源领域中词对的依存关系映射为目标领域的词对。在目标领域产生依存关系的实例过程中,最先获得词对齐的映射,采用映射矩阵而不是单个的词对齐,这样可以减少词对齐的错误。而且词对齐的映射不是一一映射,因而能够获得多种映射组合。假设词对(a, b),其中,词a有n种映射射结果,词b有m种映射结果,则词对(a, b)就存在n×m种映射可能。然后,根据源端句法树库以及映射矩阵计算目标领域存在依存关系的概率。最后,设定阈值T确定在目标领域是否产生依存关系。大于阈值T,则存在依存关系,即为正例;若小于(1 - T),则不存在依存关系,即为反例。如此就获得了大量目标领域的依存关系样例。通过在目标领域产生的样例上训练最大熵分类器实现目标端的依存关系预测。该种映射方法降低了依存关系映射时产生错误关系的概率,并且一定程度上借助英文标注语料应对中文依存分析语料匮乏的状况。但该模型仍然无法避免两种语言在句法差异上导致的错误的关系映射。此外,也难以精确设定阈值来判定映射结果是否为依存关系。

其中,si表示n-best的句法分析结果中第i个预测结果分值,n表示利用DP预测得到的句法分析树的数量。当n-best的句法分析结果的分值互相之间越发接近时,熵值也将越高。这时,句法分析器预测结果“徘徊”在n-best之中,即根据句法分析器预测结果是很难选择得到最好的句法分析树的,因此,句子s需要人工标注依存句法结构。依据上述思想,可从未标注集合中挑选k个不确定性最高的样本进行人工依存句法结构标注。

此后,将标记结果加入到标注集合中,重新训练句法分析器,获得新的句法分析器。上述过程反复迭代,直到未标注集合为空。通过这种方式扩充标注集合来解决语料匮乏问题。

另外,句子中只有部分依存关系不确定,通过标注这些不确定的依存关系就可以完成句子的依存结构标注。借助依存关系熵来度量依存关系的不确定性,具体计算如式(3)所示。

由图2可知,首先根据标注集合训练得到依存句法分析器DP,借助DP构建未标注集合中句子依存句法分析树,再根据句子不确定函数选择k个不确定句子,同时根据依存关系不确定函数选择k’个依存关系并人工标注,由此将标注结果加入标注集合,重新训练构建依存句法分析器,上述过程反复进行,直到未标注集合为空。

1.2特征提取与选择

在特征提取与选择研究方面,人们分别从不同特征对构建依存句法分析模型的贡献角度,以及特征稀疏对构建模型产生的影响角度展开研究。其中的特征主要分为:句子级特征、词类别特征、语言形态特征、以及高阶特征等,下面对其相关工作分别作以综合分析。

在句子级特征研究方面,Gadde[8]等使用短句信息提高句法分析性能。将短句的边界信息作为依存关系的限制特征来丰富特征集合,并提高依存关系预测精度。将ICON2009的数据集作为测试集,使用MSTParser[1]作为依存句法分析器,在无标记和有标记的评测中预测精度分别为87%和77%。在词类别特征提取研究方面,Agirre等[9]尝试从WordNet中获得词汇的基本语义类作为依存特征,同时采用词义消歧算法减少词义歧义带来的噪声,以此提升依存句法关系预测精度。Haffari等[10]在MSTParser依存句法分析器框架下提出将词汇表示为句法和语义两种表示方式,并采用线性加权方式将这两种表示形式的特征信息相融合,由此将依存句法分析精度则从90.82%提升到92.13%。在利用语言形态特征研究方面, Marton等[11]探索了形态学特征对句法分析的贡献,并发现时态、单复数、词缀均可提升阿拉伯语的依存句法分析精度。而在利用高阶特征研究方面,Massimiliano Ciaramita等[12]使用依存语言模型和beam搜索构建高阶特征。采用大量基准依存句法分析器自动分析语句构建依存句法语言模型,并借助依存语言模型构建高阶特征,再使用beam搜索在解码阶段将特征有效整合至依存句法分析模型中。模型中考虑了原始模型(MSTParser)中最大生成树的分值,同时考虑依存语言模型的分值,具体计算如式(5)所示。

由式(5)可知,该模型在解码阶段不仅考虑了MSTParser预测结果,同时考虑了依存语言模型对依存句法分析的贡献。实验结果显示中文句法分析达到了最高精度,而且在英语上也获得了与已知最好系统的可比精度。在特征稀疏研究方面, Zhou[13]结合从网络获取的词汇搭配偏好来提高依存句法分析精度。通过从网络语料Google hits和Google V1构建词汇之间的搭配偏好。实验结果表明,借助搭配偏好提升了依存句法分析性能。更重要的,在处理新领域数据时,使用网络获取的词汇搭配偏好可使模型具有更好的健壮性。另外,在网络数据上抽取词汇搭配偏好还可以避免数据稀疏问题,而且已在特征稀疏的生物医疗领域验证了吃方法的有效性。

1.3一体化模型

词性标注是依存句法分析中必不可少的一个基础步骤。当前的研究将依存句法分析和词性标注分开建模,这就可能导致底层的词性标注错误向高层依存句法分析传播,进而降低依存句法分析精度。实验表明,由于词性标注的错误,将造成句法分析精度大约下降6%。为了解决这个问题,李正华等[14]提出词性标注和依存句法分析的联合模型。模型采用剪枝策略来减小候选词性标签空间,大大提高了句法分析速度。其基本思想是同时最大化词性标注和依存句法分析性能。在这个模型中,词性标注和依存句法分析的特征权重做以同步调整,借助词性和句法特征交互来确定优化的联合结果。在中文宾州树库上进行测试实验,其结果表明依存句法分析精度提高1.5%。而在此基础上,Hatori等[15]提出第一个分词、词性标注以及句法分析的一体化模型。通过结合分词、词性标注和依存分析模型的特征构建一体化模型,并提出基于字符的解码方法。此外,Li, Zhongguo等[16]提出一体化中文依存句法分析模型,将未分词的句子作为输入,其输出即为句法结构。通过移除中间分词步骤,一体化句法分析器不再需要单词和短语的分割标记,因特征提取错误而导致的性能下降也将为之得到控制。但是一体化模型虽然提升了依存句法分析的精度,但却同时增加了解码复杂度。

1.4其他

此外,人们在改善依存分析效率,以及借助机器翻译技术提升依存句法分析精度方面也同样开展了广泛研究。在改善依存分析效率研究中,研究人员发现构建依存树的过程中会产生大量错误的依存关系,过滤这些依存关系可以提高依存分析效率。Bergsma等[17]采用级联式过滤模型过滤错误的依存关系。可采用三种方法实现过滤:基于规则过滤、借助线性过滤器和二次型过滤器过滤错误的依存关系。在基于规则过滤研究方面,训练支持向量机依存关系分类器,特征只包括头或依存关系中的词性,由此利用学习得到的特征权重过滤词性或词性对。例如,如果一个词性标记在非头词的分类器中的权重为正,则以这个节点作为头的所有弧都将被过滤。这样借助学习得到的权重构建一组高精度的过滤规则,即真正实现了依存关系的过滤。在线性过滤器研究方面,首先构建8个分类器作为过滤器,分别针对如下8种节点分类问题:

(1)节点是否为头(例如节点是叶子节点);

(2)节点的头是否在左侧;

(3)节点的头是否在右侧;

(4)节点的头是否在左侧5个节点距离之内;

(5)节点的头是否在右侧5个节点距离之内;

(6)节点头是否在左侧第一个节点;

(7)节点的头是否在右侧第一个节点;

(8)节点是否是根节点。

使用相同的特征模板,得到8种不同的特征权重,分别对应8种不同的分类,并且每一种过滤器的输入均是上一种过滤器输出的结果。通过这种方式实现过滤,构建二次型支持向量机分类器决定过滤哪些头—依赖对。实验结果表明,基于规则过滤可以过滤占据25%的潜在依存关系。线性过滤器能够过滤高达54.2%的潜在依存关系。而二次型过滤器则能够过滤具体为22%的潜在依存关系。

在借助机器翻译技术提升依存句法分析精度研究方面,Chen等[18]提出使用统计机器翻译系统提高双语句法分析精度的方法。假设在源端存在模糊的依存关系判定,在目标端可能就是清晰的依存关系判定,因而可根据目标端来修正源端的依存关系预测结果。首先,使用统计机器翻译系统将源端的单语树库译为目标端的语言。然后,在目标端采用目标端依存句法分析器进行句法分析,构建依存句法分析树。由此获得双语树库,即在源端是人工标记的树库,在目标端就是自动生成的树库。尽管在目标端的句子和生成树并不完备,但是采用这些自动生成的双语树库,从中抽取出目标端的依存限制来修正源端依存分析性能,实现双语句法分析性能的改进和提升。实验结果显示该方法的表现则要显著优于基准方法。更进一步,当使用一个更大规模的单语树库,句法分析的性能也得到了较大提高。

2相关应用

基于有监督学习的依存句法分析模型能够构建句子的依存树,而依存树则表明了词汇间的依存关系,并且在不同问题中表现了其有效性与实用性,例如关系获取[19]、复述获取[20]和机器翻译[21]等。此外,近年来该类模型在解决事件抽取、产品评论挖掘、以及舆情分析问题方面也发挥了主体重要作用。

在事件抽取研究方面,人们发现事件之间存在联系,例如一个犯罪事件会引起调查事件,并且还将最终引发逮捕事件。由此可知,事件之间多存在一定的依赖关系。但现有的事件抽取方法并未考虑事件间的依存关系,而是孤立抽取每一个事件。David McClosky等[22]借助依存句法分析器构建事件的依赖关系。首先,将事件及其对应的谓词转化为依存树,树中节点包括实体、事件锚和一个虚拟根节点,各边则表示三者间的依存关系,其中的事件锚识别常采用回归模型运行实现,使用的特征包括字符级别。生成依存树时,可采用两步排序方法:

(1)根据句法分析器得到n-best结果;

(2)采用最大熵模型实现第二次排序,由此将建立事件间的依存关系。

在产品评论分析研究方面,Zhang等[23]借助浅层依存句法分析来构建产品属性及其评价之间关系。其中包含三个步骤:

(1)根据浅层短语结构分析和依存句法分析构建浅层的依存树。可采用浅层句法分析器Sundance实现组块分析,并且采用Stanford句法分析器实现依存树的构建。其中,组块作为依存树中的节点,边表示组块之间的依存关系;

(2)识别产品属性和候选评价。首先,使用观点词典以过滤候选评价,观点词典包含着8 221个观点表达。其次,假设与候选评价越近似的组块,自身是产品属性的可能就越大,凭此识别产品属性;

(3)构建产品属性和评价之间的关系。可将关系构建视为一个分类任务,而将所有的产品属性和候选评价视为潜在关系。可采用支持向量机分类器实现关系构建,特征包括上下文和词性。现已在手机和数码相机领域验证了此方法的可行性和有效性。

在舆情分析研究方面,Wu等[24]提出基于图的句级情感分析模型。引入了线性规划结构学习方法产生输入句子的图形表示。图中节点包括评价目标、观点表达和观点修饰。边表示节点之间的关系,具体包括观点表达和修饰之间的关系,以及观点表达之间的关系,并且包含单个观点之间的语义关系。通过图,可以将之前被忽略的各种信息融合进来。该模型的优势在于,借助观点之间的关系,可更加精确地判定句子的整体情感极性。Nakagawa等[25]提出借助依存分析结果实现中文和日文主观句情感分类。主观句通常包括将情感极性反转的词汇。包含积极(或消极)的情感词的句子不一定表达与情感词相同的极性。因此在情感分析中需要考虑词汇之间的修饰对词汇情感极性的影响,但是采用词袋的方法很难解决这个问题。若采用规则方法实现句子极性判断,则不能从语料中学习情感信息,而且规则的适用性十分有限,同时需要大量的人力、物力构建规则。尝试借助依存句法分析解决这个问题。句子的情感标注不应该只标注句子的整体情感极性,而应该存在句子的局部情感极性标注,并且利用这些局部标注信息来实现情感分类。在该方法中,将句子转化为依存树结构,再将句子的依存树中每一个依存子树的情感极性表示为隐式变量,整句的情感极性则可由隐式变量之间的交互而共同决定。

3结束语

本文重点总结了在构建基于有监督学习的依存句法分析模型时面对的语料匮乏和特征选择两个问题的相关研究。此外,分析和总结了依存句法分析模型一体化的优缺点。最后,介绍了如何应用现有模型解决事件抽取、产品评论挖掘、以及舆情分析问题。尽管现有模型在依存句法分析方面取得了一定成功,但也存在相应不足。首先,现有模型需要大规模的标注语料用于训练与评价,这种需求并且随着互联网的发展日益增长,由此产生严重的标注语料匮乏问题,仅靠上述方法无法从根本上获得解决。其次,尽管基于有监督学习的依存句法分析模型性能最佳,但该模型只能在有限的数据集合上完成一次模型参数学习,在其后的使用过程中无法自动调节模型参数来适应领域和用户个人兴趣的变化。经由本文研究,可得只有借助用户反馈,构建连续学习的依存句法分析模型才能解决上述问题。根据用户反馈无间断地调整模型参数,以此适应领域和用户兴趣的变化,同时用户在使用该模型时也一并完成完了语料标注工作,从而克服了标注语料缺乏的困境。

参考文献:

[1]KBLER S, MCDONALD R, NIVRE J. Dependency Parsing [M]. Synthesis Lectures of Human Language Technologies, 2009: 1-20.

[2]NIVRE J. Dependency grammar and dependency parsing [R]. Technical Report, 2005: 1-32.

[3]HWA R, RESNIK P, WEINBERG A, et al. Bootstrapping parsers via syntactic projection across parallel texts[J]. In Natural Language Engineering, 2005,11: 311-325.

[4]SMITH D, EISNER J. Parser adaptation and projection with quasi-synchronous grammar features [C]// Proceedings of EMNLP, 2009: 822-831.

[5]JIANG Wenbin, LIU Qun. Automatic adaptation of annotation standards for dependency parsing using projected treebank as source corpus [C]//Proceedings of IWPT, 2009: 25-28.

[6]JIANG Wenbin, LIU Qun. Dependency parsing and projection based on word-pair classification [C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL '10), Stroudsburg, PA, USA, 2010: 12-20.

[7]MIRROSHANDEL S A, NASR A. Active learning for dependency parsing using partially annotated sentences [C]//Proceedings of IWPT, 2011: 140-149.

[8]GADDE P, JINDAL K, HUSAIN S, et al. Improving data driven dependency parsing using clausal information [C]//Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (HLT '10), Stroudsburg, PA, USA, 2010: 657-660.

[9]AGIRRE E, BENGOETXEA K, GOJENOLA K, et al. Improving dependency parsing with semantic classes [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers - Volume 2 (HLT '11), Stroudsburg, PA, USA, 2011: 699-703.

[10]HAFFARI G, RAZAVI M, SARKAR A. An ensemble model that combines syntactic and semantic clustering for discriminative dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers - Volume 2 (HLT '11), Stroudsburg, PA, USA, 2011: 710-714.

[11]MARTON Y, HABASH N, RAMBOW O. Improving Arabic dependency parsing with form-based and functional morphological features [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1586-1596.

[12]CIARAMITA M, ATTARDI G. Dependency parsing with second-order feature maps and annotated semantic information [C]//Proceedings of the 10th International Conference on Parsing Technologies (IWPT '07), Stroudsburg, PA, USA, 2007: 133-143.

[13]ZHOU Guangyou, ZHAO Jun, LIU Kang, et al. Exploiting web-derived selectional preference to improve statistical dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1556-1565.

[14]LI Zhenghua, ZHANG Min, CHE Wanxiang, et al. Joint models for Chinese POS tagging and dependency parsing [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '11), Stroudsburg, PA, USA, 2011: 1180-1191.

[15]HATORI J, MATSUZAKI T, MIYAO Y, et al. Incremental joint POS tagging and dependency parsing in Chinese [C]//Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011: 1216-1224.

[16]LI Zhongguo, ZHOU Guodong. Unified dependency parsing of Chinese morphological and syntactic structures [C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL '12), Stroudsburg, PA, USA, 2012: 1445-1454.

[17]BERGSMA S, CHERRY C. Fast and accurate arc filtering for dependency parsing [C]//Proceedings of the 23rd International Conference on Computational Linguistics (COLING '10), Stroudsburg, PA, USA, 2010: 53-61.

[18]CHEN Wenliang, KAZAMA J, ZHANG Min, et al. SMT helps bitext dependency parsing[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '11), Stroudsburg, PA, USA, 2011: 73-83.

[19]CULOTTA A, SORENSEN J. Dependency tree kernels for relation extraction [C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics (ACL '04), Stroudsburg, PA, USA, Article 423, 2004.

[20]SHINYAMA Y, SEKINE S, SUDO K. Automatic paraphrase acquisition from news articles [C]// Proceedings of the second international conference on Human Language Technology Research (HLT '02), San Francisco, CA, USA, 2002: 313-318.

[21]DING Yuan, PALMER M. Machine translation using probabilistic synchronous dependency insertion grammars[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics (ACL '05), Stroudsburg, PA, USA, 2005: 541-548.

[22]MCCLOSKY D, SURDEANU M, CHRISTOPHER D. Manning. event extraction as dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1626-1635.

[23]ZHANG Qi, WU Yuanbin, LI Tao, et al. Mining product reviews based on shallow dependency parsing [C]//Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval (SIGIR '09), New York, NY, USA, 2009: 726-727.

第7篇

学科馆员是指系统掌握图书馆学专业知识,并较为熟悉乃至精通某一学科或几门图书馆专业知识以外的学科知识,能深入从事文献信息开发和读者咨询服务等图书馆工作的高层次图书馆馆员。学科馆员制度是指派学科馆员与某一学科专业人员进行对口联系,负责该学科专业资源的组织、加工,并提供该学科资源的导航,主动为该学科用户提供有针对性的文献资源服务并进行用户培训,即为特定读者提供深层次针对的一些相关规定[1]。

一、学科馆员在国内外的起源现状

德国学科馆员制度最早可以追溯到19世纪早期;20世纪60年代早期,平均每个德国研究型大学图书馆设有4~15名学科馆员;至20世纪70年代中期,德国大学图书馆一般都设有8―21名学科馆员。英国的学科馆员在20世纪初(1901―1922年)引进伦敦大学,在20世纪30年代被利兹大学采用并辐射到其它学校;至1975年,已有20个大学图书馆建立了此项制度。在美国,1940年以前,哈佛大学等多家图书馆就已经雇用了早期的学科馆员――区域问题参考馆员;1950年,美国的内不拉斯加大学图书馆设立分支图书馆并配备学科馆员进行管理,才是学科馆员制度最公开、最正式的建立;1981年,美国卡内基―梅隆大学图书馆率先推出了“跟踪服务”(track service)。此外,俄亥俄大学图书馆相继推出了“网络化馆员免费导读服务”(network librarian and free guide)。随后,许多欧美国家的大学图书馆和研究型图书馆也纷纷推行了这种服务模式,并得到图书馆与读者的普遍认同[2]。

在我国,学科馆员制度起步比较晚,我国的学科馆员制度是在借鉴国外学科馆员制度成功实施的基础上发展起来的。1998年清华大学图书馆率先推行学科馆员制度,西安交通大学、北京大学、南开大学等图书馆相继开展[2]。经过10多年的发展,目前国内已有百余家高校图书馆开展此项目,学科馆员制在国内大学图书馆中逐渐推广并受关注,已逐步进入正轨。

目前公共图书馆在数字化、信息化的进程中,得到了快速的推进,已然站在了高校与科研图书馆同一水平线上,加之,公共图书馆文化信息资源共享工程得了很好的推进,这些为推动学科馆员制度提供了有力的支撑。

二、公共图书馆建立学科馆员制度的必要性

在公共图书馆学科馆员服务方面也有成功例子,例如国家图书馆已经拥有一批具备法律学科馆员,为用户提供针对性极强的资料;建立舆情监测分析系统,帮助企业公司了解舆论动向,以制定正确的应对策略,引导舆论正向发展舆情分析;同时专门为立法和决策部门提供服务[3]。上海图书馆开展了对大型企业和中小企业的情报服务,例如:海尔、飞跃电视机厂和“三枪”等单位,帮助企业在专利竞争中赢得国际对手;同时提出建设行业情报平台,为政府经济决策提供信息服务。这都是取决于上海图书馆人员的专业背景、理念和经验比较强以及科技文献馆藏品种全的缘故[4]。浙江图书馆不仅为大型企业提供专题服务,如:国内饮料行业知名企业娃哈哈集团公司等企业;而且还专门开设微小企业专题服务[5]。早在1988年深圳图书馆编发了“窗口信息”,内容涉及电子、自行车、饮料、食品、珠宝、出版、环保、花卉等十二个专业,取得较好的社会、经济效益[6]。他们是公共图书馆行业信息服务的领头羊,给我们做出了好的榜样。

目前,公共图书馆推行学科馆员制则少有,究其原因是:(1)公共图书馆读者众多,各行各业、各个领域的读者需求庞杂,由于受组织结构、人员配置等诸多因素,公共图书馆学科馆员甚少,达不到众多领域都设有学科馆员;(2)公共图书馆的学科馆员,大多由专业知识不强的人员组成,知识能力参差不齐,加上部分领导对学科馆员工作不够重视,以致于公共图书馆大多只是停留在文献传递的参考咨询这个层面上,学科馆员制度流于形式,服务没有真正落到实处。

为了满足众多的读者需求,更好地为大众服务,需要公共图书馆多样化、个性化和深层次的知识服务,由此,公共图书馆实行学科馆员制,迫在眉睫。

三、公共图书馆学科馆员制度的发展模式

1.建立学科馆员制度

目前,国家并没有政策性的规定这一制度图书馆必须建立。为了使学科馆员的工作开展顺利,领导的认识和决心是密切相关的;其关键之一是:取决于馆领导对学科馆员制度的重视,以及对图书馆开展个性化服务的必要性的高度认识,应结合本馆的实际情况,在人才引进和培养、管理体制上保证学科馆员制度的顺利建立,并尽可能地完善学科馆员制度;其二:图书馆需要当地政府的人力、财力及物力的大力支持,因为学科馆员制度与软硬件设施、优秀的人才以及雄厚的财力支持是分不开的,否则将事倍功半。

2.学科馆员的队伍建设

根据各方面学科服务工作的需要,合理配置学科馆员的队伍结构、岗位,确定学科馆员队伍建设的目标;在人力资源方面,我们可通过人才引进和现有馆员的培训采取以下三种方式:一、可以在本馆挑选业务素质好,能够胜任某一科咨询、服务的同志担任学科馆员;二、引进复合型人才,引进具有图书馆情报学知识背景又具备其他学科知识的双学位人才;三、聘请资深离退专家或在职专业人员担任兼职学科馆员,这是最快捷有效的方法。

3.学科馆员的素质培养

学科馆员除了具有淡泊名利的修养和无私奉献的职业道德、“读者第一,用户至上”的服务理念之外,还应具备过硬的业务知识水平。

为了能从大量的庞大无序的信息源中提取、鉴别、筛选、整理、挖掘出读者要求的文献信息,学科馆员必须要熟悉相关学科数据库资源的检索方法与技巧,熟悉图书馆各部门的基本业务工作内容和流程,这样才能为用户提供学科性专业信息资源导航。

要开展文献信息的深层次开发,学科馆员必须紧密跟踪对口学科的国内外学术发展动态,对热点问题、新观点、新动态等进行搜集并分析研究,做出知识性的评价,编制二、三次文献,为用户提供参考。

据统计,网上90%的信息资源是英文资源。熟练地掌握一门外语到多门成为图书馆工作的必需。这要求学科馆员既要有一定的外语水平,也要有一定的计算机操作能力和网络知识。此外,学科馆员还应能提供外文资料的翻译服务。

4. 学科馆员的激励机制

在市场经济条件下,仅仅靠宣传奉献精神或职业道德,已无法从根本上促使学科馆员提高水平的服务。因此,在完善学科馆员制度的同时,还必须对分配制度进行改革,否则馆员制度的实施效果会打折扣。

有些中小型图书馆疏于对科学馆员工作的激励,很大程度地抑制了学科馆员的发展。

马斯洛的需要层次论把人类的需要分为五个层次:生理需要、安全需要、社会需要、尊重需要、自我实现的需要。其中自我实现的需要是指通过自己努力,实现自己对生活的期望,从而对生活和工作感到很有意义。公共图书馆根据学科馆员的需求与动机,有针对性地采用激励方法激发全体学科馆员的工作热情,充分调动主动性和创造性。

建立考核制度,对学科馆员进行上岗后,加强人力资源管理,提高工作效率的重要环节,认真做好平时、年度、聘期内的考核工作,将考核结果与职务的升降、馆员的任职挂钩,逐步形成一个“能者上、平者让、庸者下”的有效竞争机制,以激发学科馆员的主观能动性。

图书馆应结合自身实际,建立科学规范的激励制度,极大地调动积极性。只有这样,才能吸引人才,并使其努力地学习,尽力地工作。

5.学科馆员的选拔、培训机制以及带动作用

对学科馆员不断地进行知识信息素养的补充、更新、拓展和提高培训,则是开发内部的人力资源。

一,根据学科馆员岗位设置要求,在全馆范围内进行考试并结合工作业绩,选拔出优秀人才进行脱产或不脱产培训,进一步提高他们的业务水平和工作技能,形成人才梯队,以保持学科服务的连续性和稳定性。可以在现有馆员中选派业务水平高、责任心强者攻读第二学位,使其通过系统的学习掌握对口学科的专业知识,从而胜任学科化服务工作;二,强化继续再教育,建立人才资源建设的长效机制。为馆员提供多种学习交流和业务培训的机会,参与用户科研活动、专家讲座及学术交流会,让馆员及时掌握学科的前沿动态。三,与兄弟单位进行交流、沟通,互相学习,取长补短。四、贯穿人的一生是自学,自学是继续再教育途径的补充。针对自己的知识水平不断地学习、不断地充实自己,扩大知识面,完善自我。

学科馆员是图书馆服务水平的标志,是图书馆与外界联系的桥梁;同时学科馆员对内也是各项业务工作的核心,是图书馆服务的中坚力量,担负着业务工作的指导和培训的重任,带动全馆员工更好地为经济建设服务。

四、结束语

学科馆员制度在我国公共图书馆工作中既是一种新的服务模式,也是管理上的一种创新行为。公共图书馆应根据自身的实际情况,因地制宜地开展学科馆员服务工作,拓宽图书馆的服务范围,提升服务层次,走出一个具有中国特色的因馆制宜的学科馆员之路。

参考文献:

[1]胡越主编.图书馆服务的学科化与个性化[M].北京市:首都师范大学出版社,2008.10:525

[2]谭浩娟.中外图书馆学科馆员制度的比较与启示.科技情报开发与经济.2006,(1):36-37

[3]赵红.国家图书馆学科馆员和学科化服务[J].法律文献信息与研究.2010,(3):22-27

[4]上海图书馆学会.挖掘知识价值:公共图书馆为企业的信息服务[EB]. [2007-11-19].[2013-10-15]

http:///tsgxh/list/list.aspx?id=3929

[5]范沈姗.企业竞争情报一图书馆信息服务的新热点[J].图书馆理论与实践.2001,(1):22-26,34

[6]张廷杰.深圳图书馆台港澳文献资源的建设与开发[J].图书馆论坛.1993,(3):59-62

作者简介: