时间:2023-09-05 16:32:12
序论:在您撰写数据分析分析技术时,参考他人的优秀作品可以开阔视野,小编为您整理的7篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。
关键词 数据挖掘技术 警务系统 数据分析 应用
中图分类号:TP311 文献标识码:A
1数据挖掘技术在警务数据分析系统中的重要性
警务系统由于工作的特点,要不断地接受外来数据和有序存储旧数据,这就对警务系统的数据处理系统有越来越高的要求,传统的警务数据处理系统在信息量巨大的现今社会已经不能再有效的完善数据库的运行,这就需要新型的数据处理系统接替工作。新型的数据处理系统在案件的信息提取、视频分析等方面都应该有卓越的性能,将对案情有帮助的信息从大数据库中有效的提取出来。数据挖掘技术是一项在能够提高警务系统在数据的提取和挖掘效率的一项技术,能在短时间内将案件中的数据作为数据源,将其进行分析和建模,从而从这些数据中获得有力的线索。
2目前警务系统特点
现今的警务系统是跟随时代不断发展的一个工作效率高、工作素质强的组织系统,有案件处理速度快、案件分析效率高的特点。这些特点,都需要警务系统中数据处理系统的有效应用,通过对数据的处理分析、检查对比得出较有价值的案件线索,从而提高效率。警务系统的正常运行离不开数据处理系统,而数据挖掘技术更是数据处理系统的重要组成部分,它确保了整个系统的运行速度,对案件的侦查有促进作用。
3构建警务系统数据存储器
基于警务系统的数据特点,警务系统应该建立一个高速运行的警务系统数据存储器。“数据存储器”在结构上分为三个部分,分别是关系系统、OLAP服务器以及客户处理系统。这三个部分的作用效果如下:
3.1关系系统
关系系统是这三个组成部分的基础部分,这个系统负责对系统中的数据进行整理和提取、刷新,将数据在整个系统中的存储位置有序的排列好,防止数据丢失和数据残缺的现象发生。关系系统在运行的过程中通过警务系统不断的收集新的信息,将其整理保存,始终将数据系统中的有效信息得到较完好的保护。
3.2 OLAP服务器
OLAP是联机处理的缩写,是将多角度的信息共享并由一个关键的出发点而联机进行数据处理分析的一个软件技术,在警务系统中可将需要处理的信息进行联机处理分析,将信息较快的处理出来,得到有效的结论。
3.3客户处理系统
客户处理系统是将数据进行分析处理以及检索和报告的一个系统,通过对数据之间的联系将数据的信息整理和挖掘出来,形成有用的线索,供警务系统人员进行案件的侦破和处理,是数据存储器的重要部分,特别是数据挖掘技术的应用时整个系统的运作重心。
4数据挖掘技术
数据挖掘技术是将数据库中的数据进行采集、集成以及分析的一项技术,其应用到警务系统中可以对案件相关信息进行检索和分析,应用了多维数据分析处理及关联规则的应用、聚类分析方法的实际处理等数据挖掘分析处理模式将警务系统中的数据有效的联系起来,形成一个较为完整的数据挖掘模式。
在挖掘出境数据时,数据挖掘技术的决策树技术有效应用,与县赢得算法技术相互应,将数据较为完整的从警务系统中巨大的信息库中挖掘出来,实现了数据挖掘的分级处理模式的有效应用。
5数据挖掘技术在现代警务系统中的应用
在警务系统中,数据挖掘系统在案件的相关数据中整理生成了一个多维数据模型,使信息可视化、将案件信息的关系更加清楚的展现在警务系统的工作人员面前,通过多角度、多方面的分析和挖掘,将系统中的有用信息全部呈现在报告中,实现了信息的有效用。
6结语
警务系统中的信息有多样化、复杂化、信息量巨大的特点,使用传统的数据库是不能按照现代的社会发展速度生存的,对数据进行高效的分析处理和采集,是现代警务数据处理系统应该具有的一项特点。在数据处理速度快的前提下,数据处理系统的管理能力和联系能力也应该是突出的,本文中提到的数据挖掘技术就是解决数据处理问题的有效解决办法,其运行通过对数据的建模、分析、采集等手段强化了数据处理系统的能力,为警务系统中案件处理效率的提升做出了一定的贡献。目前社会的高速发展离不开大数据的支持,大数据时代对数据的处理系统要求越来越高,数据挖掘技术近些年在警务信息系统中的引用为警务系统的发展提供了技术上的有效支持,警务系统未来的发展肯定也离不开数据的有效处理工作,数据挖掘系统在未来的警务数据分析系统中也会有不断地改善和提高。
参考文献
[1] 刘敏,朱鹏,方有轩.面向市场分析人员的经分模型库的设计与实现[J].电脑与电信,2016(09) .
[关键词]数据仓库联机分析处理多维数据分析
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1110077-01
一、引言
联机分析处理(Online Analytical Processing,OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的,OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
二、OLAP的多维数据结构
数据在多维空间中的分布总是稀疏的、不均匀的。在事件发生的位置,数据聚合在一起,其密度很大。因此,OLAP系统的开发者要设法解决多维数据空间的数据稀疏和数据聚合问题。事实上,有许多方法可以构造多维数据。
(一)超立方结构。超立方结构指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。
这种结构可应用在多维数据库和面向关系数据库的OLAP系统中,其主要特点是简化终端用户的操作。超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维。
(二)多立方结构。在多立方结构中,将大的数据结构分成多个多维结构。这些多维结构是大数据维数的子集,面向某一特定应用对维进行分割,即将超立方结构变为子立方结构。它具有很强的灵活性,提高了数据的分析效率。
一般来说,多立方结构灵活性较大,但超立方结构更易于理解。超立方结构可以提供高水平的报告和多维视图。多立方结构具有良好的视图翻转性和灵活性。多立方结构是存储稀疏矩阵的一个更有效方法,并能减少计算量。因此,复杂的系统及预先建立的通用应用倾向于使用多立方结构,以使数据结构能更好地得到调整,满足常用的应用需求。
许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却利用超立方结构来进行计算,结合了超立方结构的简化性和多立方结构的旋转存储特性。
三、OLAP的多维数据分析
多维数据分析是指对以多维形式组织起来的数据采取切片、切块、旋转和钻取等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据仓库中的数据,从而深入地了解包含在数据中的信息、内涵。多维分析方式迎合了人们的思维模式,因:
(一)切片。定义1:在多维数组的某一维上选定一维成员的动作成为切片,即在多维数组(维1、维2、....维n,变量)中选一维:维i,并取其一维成员(设为“维成员vi”),所得的多维数组的子集(维1,...维成员vi,...,维n,变量)称为在维i上的一个切片。
按照定义1,一次切片一定是原来的维数减1。所以,所得的切片并不一定是二维的“平面”,其维数取决于原来的多维数据的维数,这样的切片定义不通俗易懂。下面给出另一个比较直观的定义。
定义2:选定多维数组的一个二维子集的动作叫做切片,既选定多维数组(维1、维2、....维n,变量)中的两个维:维i和维j,在这两个维上取某一区间或者任意维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维i和维j上的一个二维子集,称这个二维子集为多维数组在维i和维j上的一个切片,表示为(维i和维j,变量)。
按照定义2,不管原来的维数有多少,数据切片的结果一定是一个二维的“平面”。从另一个角度来讲,切片就是在某个或某些维上选定一个维成员,而在某两个维上取一定区间的维成员或全部维成员。从定义2可知:
1.一个多维数组的切片最终是由该数组中除切片所在平面的两个维之外的其它维的成员值确定的。
2.维是观察数据的角度,那么切片的作用或结果就是舍弃一些观察角度,使人们能在两个维上来集中观察数据,因为人的空间想象力有限,所以,对于维数较多的多维数据空间,进行数据切片是十分有意义的。比照定义1,我们可以将切片的这两个定义联系起来,对于一个n维数组,按定义1进行的n-2切片的结果,就必定对应于按定义2进行的某一次切片的结果。
(二)切块。定义1:在多维数组的某一维上选定某一区间的维成员的动作称为切块,即限制多维数组在某一维的取值区间。显然,当这一区间只取一个维成员时,即得到一个切片。
定义2:选定多维数组的一个三维子集的动作称为切块,即选定多维数组(维1、维2、....维n,变量)中的三个维:维i、维j、维r,在这三个维上取某一区间或任意的维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维i、维j、维r上的三维子集,我们称这个三维子集为多维数组在维i、维j、维r上的一个切块,表示为(维i、维j、维r,变量)。切块与切片的作用与目的是相似的。
(三)旋转。旋转既是改变一个报告或者页面的维方向。例如:旋转可能包含了交换行与列;或是把某一个行维移到列维,或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或者列的一个)。
(四)钻取。
钻取处理是使用户在数据仓库的多层数据中,能够通过导航信息而获得更多的细节性数据,钻取一般是指向下钻取。大多数的OLAP工具可以让用户钻取至一个数据集中有更好细节描述的数据层,而更完整的工具可让用户随处钻取,即除一般往下钻取外,随处钻取还包括向上钻取和交叉钻取。
(五)多视图模式。人们发现,获取相同的信息,图形显示所带来的直观性有时是简单的数据表所无法提供的。一个OLAP系统,应当采取多种不同的格式显示数据,使用户能够获得最佳的观察数据的视角。
四、结语
随着数据仓库的发展,OLAP也得到了迅猛的发展。数据仓库侧重于存储和管理面向决策主题的数据,而OLAP则侧重于数据仓库中的数据分析,并将其转换成辅助决策信息。OLAP的一个重要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。将有助于我们解决数据处理中的复杂问题。
参考文献:
[1]彭木根,数据仓库技术与实现,电子工业出版社,2002.9.
1计算机大数据分析中云计算技术作用分析
云计算技术可以给提供计算机数据传递与共享的条件,融合软硬件数据保存,促进计算机处理工作更好的开展。云计算技术可以给用户提供良好的网络环境与保存空间,处理数据传递环节的各项问题。与传统大数据分析技术相比,云计算计算可以提高大数据分析质量。人们借助云计算技术获得云终端的数据,切实满足人们对于数据的需求。现阶段计算机市场形成完善的结构体系,围绕云计算技术推动计算机大数据分析工作的开展,奠定后期云计算技术发展的基础。目前,人们生活中全面运用云计算技术,基于云计算技术研发的服务器及操作系统方便人们处理各类信息技术。同时,云计算技术数据保存有着较强的安全性,极小可能出现数据丢失情况,满足人们的实际需求,直接体现出云计算技术的优势。优化云计算环境下计算机的数据处理中心,就可以不断提升计算机的云计算能力,让云计算不仅为网络信息所用,还在计算机网络安全中发挥极为重要的作用。目前,计算机的使用人群更为注重的是在高速发达的信息社会,自己的信息,也就是使用计算机网络的安全性能是否能得到保障,这时候考验的就是云计系统的完善性。目前存在的最主要计算机安全问题就是黑客问题和系统漏洞问题。系统漏洞这一人为因素可以通过不断检索进行漏洞的发现和修补,面对黑客的攻击,能够做的就是防患于未然,不断地升级和优化系统,最终达到完善的数据处理效果。
2云计算技术下计算机大数据分析面临的问题
2.1网络技术安全
由于相关技术的不断发展,云计算环境下的网络安全技术正在朝着稳定和成熟的方向发展,但在具体的应用过程中依然表现出一定的网络安全问题,因此用户在使用过程中应该做好相关的应对工作。网络安全问题具体表现在用户在使用信息传输的过程中,一旦出现服务性中断问题,难以保证数据的安全性,启动被动保护模式的情况使信息的安全性更加难以保障,这也成为云计算模式下的网络技术安全中的重点问题,一旦得不到及时有效的解决,用户在使用过程中就会受到不同程度的威胁。
2.2网络环境安全
网络环境安全是保证网络正常使用,信息传输质量有保证的重要前提,一旦网络环境存在不安全因素,将会引发病毒的入侵和黑客的攻击。因此网络环境安全也是云计算技术价值得以发挥的重要前提。计算机在使用过程中如果长期受到病毒的困扰和黑客的威胁,将会降低人们对计算机的信赖性,甚至在工作和生活中将会在网络环境安全方面投入更多的成本。
3计算机大数据分析中云计算技术的具体应用
3.1数据传输安全分析
在云计算的作用下,云安全含义逐渐形成,具体来说,云安全主要指在用户借助云计算技术来实现计算机大数据分析时,让数据安全性得到了保证。用户端数据和数据安全往往呈现出正比关系,随着应用群体数量的增多,涉及的计算机数据范畴将不断扩充,假设计算机遭受病毒的攻击,可以在云计算技术的作用下实现病毒的拦截,以此让计算机数据安全性得到保证。从云计算技术自身角度来说,其提供的各个服务均是由IaaS基础设施级服务以及PaaS平台级服务两项内容构建而成。首先,IaaS基础设施级服务其作用在于,可以给用户提供对应的服务,也就是对各个计算机基础设备进行操作和应用,其中包含了CPU处理、数据保存、数据传递等。其次,PaaS平台级服务则是指,把云计算中各个服务器及开发环境当作服务,通过PaaS平台用户能够结合自身需求实现对应操作流程的部署和应用。
3.2监督数据资源共享
网络资源在传输过程中遭遇到的安全威胁是用户时时刻刻关注的问题,因此在具体的工作和管理中,需要提高云计算网络安全技术的应用程度,通过不断创新安全模式,完善相应的防护体系,从而有效消除安全性问题,提升数据传输的安全性和稳定性。具体在应用过程中,可以借助云计算技术的优势,对数据传输的整个路径进行监控,保证传输通道环境的安全性,一旦出现问题及时进行预警,有效预防黑客的攻击,降低网络安全事故发生的概率。对此,有关部门应该提高重视程度,同时完善相应的监督管理制度,采用科学的管理方式,实现预期的监测目标。
3.3提高数据使用安全
计算机用户本身的安全意识也是当前需要关注的重要方面,为了进一步提升用户数据信息和计算机系统的安全系数,需要重视身份认证工作的提升,具体可以使用实名制的方式进行认证处理,从而不断提升整个网络结构的安全性。对于网络应用过程中涉及到的安全问题,可以通过实名追踪的方式进行可疑目标锁定,从而有效控制恶意攻击情况的发生。但在应用过程中也需要重视假人名情况的出现,提高网络数据信息窃取的预防水平。计算机网络环境算是一种相对开放的环境,在使用过程中会面向大量的用户,通过重视用户的身份认证,可以有效避免用户对数据的非法访问。同时在使用者进行计算机登录和使用的时候,需要对用户名和密码进行核实。按照权限的不同,确保数据库信息的安全有效性。通过对数据库信息加密处理,可以确保数据库信息的安全性。这种加密处理可以在原有数据信息的基础上进行算法的处理改进,使用者可以通过自身的权限获取想要了解的信息,如果没有解密方式,不法分子将会难以获取数据的原始信息。
3.4网络安全等级防护
在云计算环境下的安全管理中心具备系统管理、安全管理和安全审计等功能,能够满足不同云计算环境下不同安全等级的保护要求,并且通过服务层的安全保护框架,实现对不同等级云服务客户端的安全保护,为使用者提供安全可靠的资源访问服务。在访问云服务商时,用户可通过通信网络、API接口和Web服务方式访问云服务器,但是用户终端系统的安全防护不在网络安全等级保护框架体系内。在保护框架体系内,资源层和服务层安全是云计算环境安全保护的重点,资源层包括物理资源安全和虚拟资源安全,应按照安全设计要求构建资源层安全保护框架。云计算环境下的网络安全等级保护要针对不同等级云计算平台确定不同的安全目标,一般情况下安全保护等级最低为二级,并根据安全目标和等级要求实施安全设计步骤,具体包括:第一步,根据云平台的租户数量和业务系统情况确定云计算安全保护标准,制定云计算平台的安全保护策略,以避免在云计算平台上发生安全事件;第二步,细化安全技术要求,针对安全计算环境、安全区域边界、安全通信网络以及安全管理中心制定出相应的安全保护策略;第三步,根据云计算功能框架中的各层功能和保护要求,制定安全技术机制,使其满足云计算功能框架的安全保护要求。在完成云计算环境下的网络安全等级保护设计之后,还应增加虚拟化安全、镜像安全、接口安全等安全控制点,并采用访问控制技术、身份识别技术等安全防护技术,实现与云计算平台上各功能层次的对接,提出各层的安全保护措施。
3.5重视相应程序开发
网络安全应用程序需要随着技术的进步和人们生活和工作的需要进行逐步提升,从而及时对病毒程序进行开发和处理,确保计算机系统可以敏锐捕捉到病毒的活动迹象,提升自身的防御能力。通常情况下,对于计算机的服务,内网隐蔽处理,可以提升网站平台的访问速度,可以避免不安全网址带来的不良效应,从而为计算机的安全防御提供一定的屏障。在计算机数据的使用中,由于安全性威胁导致的数据丢失问题,可以通过备份和恢复改善。这种恢复性功能也可以保证数据的一致性和完整性。通常由逻辑备份、动态备份以及静态备份等几种情况。计算机黑客数量增多,净化网络环境显然存在较大难度,但通过必要的防范措施依然可以在数据库信息的保护中起到关键作用。而使用防火墙保护工具就能很好的为计算机网络提供一种安全保障。通过防火墙,可以在一定程度上防止黑客的侵害。
关键词 数据挖掘 基因序列 生物信息学 遗传疾病 患病家族连锁分析
在生物信息学的成果的理论基础之上,通过统计的方法查找未知的生物化学功能的疾病基因的位置。这个方法预先通过患病家族连锁分析,再推断包含这些基因的染色体区域片段,然后检查该区域来寻找基因[1]。
数据挖掘在DNA数据分析的发展状况
现今所采用的是分子生物学与微电子技术相结合的核酸分析检测技术[2]。DNA芯片技术的基本原理是将cDNA或寡核昔酸探针以105~106位点/cm2>/sup>的密度结合在固相支持物(即芯片)上,每个位点上的cDNA或寡核昔酸探针的顺序是已知的,将该探针与荧光标记的待测样品DNA,RNA或cDNA在芯片上进行杂交,然后用激光共聚焦显微镜对芯片进行扫描,并配合计算机系统对杂交信号做出比较和检测,从而迅速得出所需的信息。
基因数据挖掘常用的方法:①核酸与蛋白质比较的预测分析:蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。②针对核酸序列的预测方法:针对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DN段的假想产物与某个已知的蛋白质或其他基因的产物具有较高序列相似性的话,那么这个DN段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其他的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。
案例分析
疾病是由于基因的片段内的某个位置存在或发生改变而引起的,也就是发生突变。能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。对基因的数据挖掘,就是对这些突变位置的寻找,并且找出该位置与所有者身患的疾病之间的关系。
方法的选择:笔者在设计中选用单纯的DNA序列进行比较,基因在计算机的表示和存储时,可以使用一条很长的字符串来表示基因的某一条序列,使用文件的形式进行对基因工作者的提取成果创建一级数据库,使用文件修整的方法进行数据的清洗,以满足数据在二级数据库中的一致性。同时在文件比较过程中,生成某两个数据文件的差异状况,保存在二级数据库库中,进一步的操作是对差异的位置的某个类型所占的比例。最后通过事先的对患者患病信息的统计得到的某种疾病在群中所占的比例,与其相比较,如果这两个比例相等,则可以认为这个位置的某个类型引起疾病的发生。从医学院得到一些基因片段文件信息和患者(所有者)患病情况。
系统的实现:基因片段在计算机中以文件形式存储,用文件名标识其所有者(源体)。片段起始地址和长度信息和所有患者患病情况保存在本机数据库中。在程序测试过程中,将片段复制成40份,对其中部分文件的序列进行稍作修改,对所有患者的患病状况进行稍作修改,以创造测试环境。显示在与基因数据挖掘软件同在一根目录下的序列文件的集合。
其中一个文件所存储的基因信息,见图1。
启动统计程序界面,单击清空数据库中的临时用表数据,将数据库中有可能的杂音信息去掉。并对其中的所有文件进行统计前片段剪切,使所有片段的起始地址和长度都相同,避免发生序列移位。
没有进行片段剪切之前,浏览文件所存的片段信息,片段剪切完成之后,设置进行比较操作的甲、乙组的文件添加,因为本次测试只检验片段中的一块区域(文件中片段的所有信息),所以在起始序号那里添加为0,终止序号那里添加为175。这样则可以保证统计文件的所有信息都被统计。
单击结果显示按钮,可以见到程序以表格和条形图标方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的条形段较高。说明在这些接受统计的片段中,在上面提到的位置处存在的差异较大,与某遗传疾病的关联的可能性就越大。
如果用户想要在初步统计结果的基础上,按照数据库中所有者的疾病状况进行详细统计的话,单击菜单栏的详细统计按钮,选择按疾病详细统计,则将弹出窗口。
选择弱视,输入,则在文本框中显示与其关联的位置为1、3、5、12、14、16、18、13、31、34、87、94、139、166。
由此,用户可以根据本系统所给出的预测对弱视遗传疾病与序列中的特定位置,选择适当算法进行进一步的计算及检验,证明预测结果是否符合关联理论。数据挖掘方法体系中的智能聚类的相关技术则可较好的解决类别数判定、结果验证等问题。
结 论
对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,需要一些新的和好的算法;但技术和软件还远没有达到成熟的地步,因此需要不断探索及研究。
参考文献
1 黄诒森.生物化学[M].北京:人民卫生出版社,2002:29-37.
关键词:告警数据 Hadoop Spark
1 引言
随着电信网络的不断演进,全省数据网、交换网、接入网设备单月产生告警原始日志近亿条。以上告警通过网元网管、专业综合网管、智能网管系统[1]三层收敛,监控人员每月需处理影响业务或网络质量的告警事件为20万条,但一些对网络可能造成隐患的告警信息被过滤掉。如何从海量告警数据中获取与网络性能指标、运维效率相关的有价值的数据,对于传统的关系型数据库架构而言,似乎是一个不可能完成的任务。
在一般告警量情况下,ORACLE数据处理能力基本可以满足分析需求,但当告警分析量上升到亿级,如果采用传统的数据存储和计算方式,一方面数据量过大,表的管理、维护开销过大,要做到每个字段建索引,存储浪费巨大;另一方面计算分析过程耗时过长,无法满足实时和准实时分析需求。因此必须采用新的技术架构来分析处理海量告警信息,支撑主动维护工作显得尤为必要,为此我们引入了大数据技术。
2 分析目标
(1)数据源:电信运营商网络设备告警日志数据,每天50 G。
(2)数据分析目标:完成高频翻转类(瞬断)告警分析;完成自定义网元、自定义告警等可定制告警分析;完成被过滤掉的告警分析、TOPN告警分析;核心设备和重要业务监控。
(3)分析平台硬件配置:云计算平台分配8台虚拟机,每台虚机配置CPU16核;内存32 G;硬盘2 T。
3 制定方案
进入大数据时代,行业内涌现了大量的数据挖掘技术,数据处理和分析更高效、更有价值。Google、Facebook等公司提供可行的思路是通过类似Hadoop[2]的分布式计算、MapReduce[3]、Spark[4]算法等构造而成的新型架构,挖掘有价值信息。
Hadoop是Apache基金会用JAVA语言开发的分布式框架,通过利用计算机集群对大规模数据进行分布式计算分析。Hadoop框架最重要的两个核心是HDFS和MapReduce,HDFS用于分布式存储,MapReduce则实现分布式任务计算。
一个HDFS集群包含元数据节点(NameNode)、若干数据节点(DataNode)和客户端(Client)。NameNode管理HDFS的文件系统,DataNode存储数据块文件。HDFS将一个文件划分成若干个数据块,这些数据块存储DataNode节点上。
MapReduce是Google公司提出的针对大数据的编程模型。核心思想是将计算过程分解成Map(映射)和Reduce(归约)两个过程,也就是将一个大的计算任务拆分为多个小任务,MapReduce框架化繁为简,轻松地解决了数据分布式存储的计算问题,让不熟悉并行编程的程序员也能轻松写出分布式计算程序。MapReduce最大的不足则在于Map和Reduce都是以进程为单位调度、运行、结束的,磁盘I/O开销大、效率低,无法满足实时计算需求。
Spark是由加州伯克利大学AMP实验室开发的类Hadoop MapReduce的分布式并行计算框架,主要特点是弹性分布式数据集RDD[5],中间输出结果可以保存在内存中,节省了大量的磁盘I/O操作。Spark除拥有Hadoop MapReduce所具有的优点外,还支持多次迭代计算,特别适合流计算和图计算。
基于成本、效率、复杂性等因素,我们选择了HDFS+Spark实现对告警数据的挖掘分析。
4 分析平台设计
4.1 Hadoop集群搭建
基于CentOS-6.5系统环境搭建Hadoop集群,配置如表1所示。
4.2 Spark参数设置[6]
Spark参数设置如表2所示。
4.3 数据采集层
数据采集:由于需采集的告警设备种类繁多,故采取分布式的告警采集,数据网设备、交换网设备、接入网设备分别通过IP综合网管、天元综合网管、PON综合网管进行采集,采集周期5分钟一次。采集机先将采集到的告警日志文件,通过FTP接口上传到智能网管系统文件服务器上,再对文件进行校验,通过Sqoop推送到Hadoop集群上。
4.4 逻辑处理层
(1)建立高频翻转告警监控工作流程
先将海量告警进行初步删选,通过数量、位置和时间三个维度的分析,得出高频翻转类告警清单列表,最后由专业工程师甄别确认,对某类告警进行重点关注和监控。
(2)差异化定制方案
按组网架构细分,针对核心重要节点的所有告警均纳入实时监控方案;
按业务网络细分,针对不同业务网络设计个性化的监控方案;
按客户业务细分,针对客户数字出租电路设计个性化的监控方案。
4.5 数据分析层
Spark读取Hive[7]表的告警数据,然后在Spark引擎中进行SQL统计分析。Spark SQL模K在进行分析时,将外部告警数据源转化为DataFrame[8],并像操作RDD或者将其注册为临时表的方式处理和分析这些数据。一旦将DataFrame注册成临时表,就可以使用类SQL的方式操作查询分析告警数据。表3是利用Spark SQL对告警工单做的一个简单分析:
5 平台实践应用
探索运维数据分析的新方法,利用大数据分析技术,分析可能影响业务/设备整体性能的设备告警,结合网络性能数据,找到网络隐患,实现主动维护的工作目标。
5.1 高频翻转类告警监控
首先制定了高频翻转类告警分析规则,将连续7天每天原始告警发生24次以上定义为高频翻转类告警,并基于大数据平台开发了相应的分析脚本,目前已实现全专业所有告警类型的分析。表4是全省高频翻转类TOP10排名。
5.2 核心设备和重要业务监控
目前以设备厂商或专家经验评定告警监控级别往往会与实际形成偏差,主要表现在以下几个方面:监控级别的差异化设定基于已知的告警类型,一旦网络重大故障上报未知的告警类型就无法在第一时间有效监控到;同一类型的故障告警出现在不同网络层面可能影响业务的程度是完全不同的;不同保障级别的客户对故障告警监控的实时性要求也是不同的。
通过大数据分析平台对差异化监控提供了灵活的定制手段,可根据告警关键字,分专业、地市、网管、机房、告警频次等维度自主定制需要的告警数据,实现日、周、月、某个时间区等统计分析。
应用案例:省NOC通过大数据分析出一条编号为CTVPN80113的中国平安大客户电路在一段时间内频繁产生线路劣化告警,但用户未申告,省NOC随即预警给政企支撑工程师,政支工程师与用户沟通后,派维护人员至现场处理,发现线路接头松动,紧急处理后告警消除、业务恢复。
5.3 被过滤告警分析
全省每天网络告警数据300万条~500万条,其中99%都会根据告警过滤规则进行过滤筛选,把过滤后的告警呈现给网络监控人员。过滤规则的准确性直接影响告警数据的质量。一般来说告警过滤规则可以从具有丰富运维经验的网络维护人员获得,但是这个过程非常繁琐,而且通过人工途径获得的告警过滤规则在不同的应用环境可能存在差异,无法满足网络维护的整体需要。采用大数据技术对被过滤的告警进行分析可以很好地完善过滤规则,让真正急迫需要处理的告警优先呈现给维护人员及时处理,真正做到先于客户发现故障。表5是动环专业被过滤的告警情况分布。
5.4 动环深放电分析
动环网管通过C接口采集蓄电池电压数据,在停电告警产生之后,电压数据首次下降到45 V,表示该局站电池出现深放电现象,通过计算这一放电过程的持续时间,记为深放电时长,该时长可以初步反映电池的放电性能。一个局站每天产生几十万条电压等动环实时数据。
在告警数据分析的基础上,实现对蓄电池电压变化数据的分析,提醒分公司关注那些深放电次数过多和放电时长过短的局站,核查蓄电池、油机配置、发电安排等,并进行整治。利用Spark SQL统计了一个月内抚州、赣州、吉安三分公司几十亿条动环数据,分析了其中深放电的情况如表6所示。
6 结论
本文利用HDFS+Spark技术,实验性地解决告警数据存储和分析等相关问题:一是通过数据分析,从海量告警数据中发现潜在的网络隐患;二是结合资源信息和不同专业的告警,最终为用户提供综合预警;三是转变网络监控思路和方式,通过数据汇聚、数据相关性分析、数据可视化展示,提高了网络监控效率;最后还扩展到对动环实时数据、信令数据进行分析。
从实际运行效果来看,HDFS和Spark完全可以取代传统的数据存储和计算方式,满足电信运营商主动运维的需求。
参考文献:
[1] 中国电信股份有限公司. 中国电信智能网管技术规范-总体分册[Z]. 2015.
[2] Tom white. Hadoop权威指南[M]. 4版. 南京: 东南大学出版社, 2015.
[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.
[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.
[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.
[6] S鹏. Apache Spark源码剖析[M]. 北京: 电子工业出版社, 2015.
[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.
[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.
[9] 员建厦. 基于动态存储策略的数据管理系统[J]. 无线电工程, 2014,44(11): 52-54.
关键词:大数据 智能 数据分析
中图分类号:F503 文献标识码:A 文章编号:1674-098X(2014)04(a)-0021-01
对于数据分析来说,其主要的目的就是通过对数据的分析去发现问题或预测趋势。从数据钻取、大规模分析的技术手段、以及算法执行上来说,大规模分析是和小规模数据在技术上是有很大差异的。想要探究大数据下的智能数据分析技术,首先要对数据分析这一概念进行深入研究。
1 数据分析
数据分析的过程其实简单的说就是做报告,做什么样的报告反映什么样的指标。最开始的时候基本上是data processing。例如零售行业来说,最主要的指标就是库存、销售同比增长情况、利润同比增长情况、促销率等等。对于不同的行业会有不同的相关的KPI需要跟踪,所以报告的内容也会有所侧重,但是只要你一个行业做久了,熟悉了套路之后,基本上就是以同样的方法开展。
对于数据分析,如果公司部门分的比较细的(例如可能有建模组),那么做数据分析可能永远都是做data processing了。对于模型的分析,需要你对业务有了深入的了解就可以建立一些模型出来(例如推荐模型)等等。
数据分析主要涉及的技能:
(1)数据库的能力。越全面越好,如果不是理工科的,最起码要会select那些简单的查询语句。
(2)EXCEL、PPT的能力。报告的呈现一般都是Excel+PPT的形式,最好VBA,这样就可以将很多人工的工作转化为自动化的能力,提高工作效率,领导也对你刮目相看,自己也有更多空余的时间准备其他方面的知识。
(3)市场分析能力。学会观察市场的走向和关注的内容,例如零售行业,现在大家都对CRM很热衷,那相关的分析方法和方式是怎么样的,你要自己去了解。从来不会有人手把手的将所有东西都告诉你,你必须自己学会去增长知识。
(4)一些会计的知识。因为通过以上分析,就是会计管理的一部分内容,最后还是公司盈利问题。有兴趣的也可以去看看战略管理方面的,对于做数据分析也很有好处的说。
综合来看,可以说数据分析=技术+市场+战略。
2 如何培养数据分析能力
理论:
基础的数据分析知识,至少知道如何做趋势分析、比较分析和细分,不然拿到一份数据就无从下手;
(2)基础的统计学知识,至少基础的统计量要认识,知道这些统计量的定义和适用条件,统计学方法可以让分析过程更加严谨,结论更有说服力;
(3)对数据的兴趣,以及其它的知识多多益善,让分析过程有趣起来。
实践:
(1)明确分析的目的。如果分析前没有明确分析的最终目标,很容易被数据绕进去,最终自己都不知道自己得出的结论到底是用来干嘛的;
(2)多结合业务去看数据。数据从业务运营中来,分析当然要回归到业务中去,多熟悉了解业务可以使数据看起来更加透彻;
(3)了解数据的定义和获取。最好从数据最初是怎么获取的开始了解,当然指标的统计逻辑和规则是必须熟记于心的,不然很容易就被数据给坑了;
(4)最后就是不断地看数据、分析数据,这是个必经的过程,往往一个工作经验丰富的非数据分析的运营人员要比刚进来不久的数据分析师对数据的了解要深入得多,就是这个原因。
3 大数据
大数据就是通过统计分析计算机收集的数据,在人们可能不知道“为什么”的前提下,了解到事物的状态、趋势、结果等“是什么”。
对于大数据,一直来说,数据规模导致的存储、运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够了,后来类似海杜普这样的研究则彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。
从技术层面说,大数据和以前的数据时代的最大差异在于,以前是数据找应用/算法的过程(例如各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。
大数据的特点:
(1)大数据不等同于数据大,我们处理问题是根据这个问题的所有数据而非样本数据,即样本就是总体;不是精确性而是混杂性;不是因果关系而是相关关系。
(2)大数据应用的几个可能:当文字变成数据,此时人可以用之阅读,机器可以用之分析;当方位变成数据,商业广告,疫情传染监控,雅安地震时的谷歌寻人;当沟通变成数据,就成了社交图谱。一切都可以量化,将世界看作可以理解的数据的海洋,为我们提供了一个从来未有过的审视现实的视角。
(3)数据创新的价值:数据的再利用。例如重组数据:随着大数据出现,数据的总和比部分更有价值,重组总和和本身价值也比单个总和更大;可扩展数据:在设计数据收集时就设计好了它的可扩展性,可以增加数据的潜在价值;数据的折旧值:数据会无用,需淘汰更新;数据废气:比如语音识别,当用户指出语音识别程序误解了他的意思,实际上就有效的训练了这个系统。
总之,大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了突出的技术和算法才体现了它的价值。
4 大数据下的智能数据分析
在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,实际中,选择处在两个极端的数据往往更容易找出它们之间的联系,把它们放在一个框架中看才能发现问题。因此,可以用以下四种方法在大数据背景下进行智能数据分析:
(1)从解决问题的角度出发收集数据;
(2)把收集的数据整理好,放入一个框架内,并利用这个框架帮助决策者做出决定;
(3)评估决定与行动的效果,这将告诉我们框架是否合理;
(4)如果有新的数据出现,我们将考察能否利用它对前面三步做出改进,以及我们今天是否还需要收集更多种类的数据。
5 结语
数据分析的最终目的是帮助业务发现问题并解决问题,提升公司价值,而这些是从数据发觉的,而不是盲目下结论。每家公司都有自己业务生产的数据,通过数据分析、同比环比、漏斗分析及模型等,发现业务上存在的问题,帮助公司业务的优化。
参考文献
[1] 李贵兵,罗洪.大数据下的智能数据分析技术研究[J].科技资讯,2013(30).
关键词:联机数据分析;处理数据;分析和转换数据
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)03-0006-03
为了提升大学物理公共课程的教学水平,更好地了解学生的学习情况,需要引用联机数据技术,通过科学建立模型对教学数据进行处理和分析。维度模型的建立是为了能够全方位地剖析数据。
1 建立数据模型
建立模型是为了更加直观地表达数据和事实。对于同一批数据,人们总是会以不同的角度对其进行观察,这就是维度。维度模型从不同的角度分析数据,最终得出一张事实表。
如图1所示,维度模型包括了教材维度表,学期维度表,教师维度表,学生维度表和教学事实表。为了更好地分析教学效果,维度模型从四个不同的角度进行分析,每一张维度表上都注明了详细的数据内容。最后,在总结四张维度表的基础上,概括了最终的教学事实表。
2 OLAP技术
2.1 数据的采集
原有的Visual和SQL数据库上储存了学生的信息,教师的信息以及教学的数据等等。如图二所示,教务数据库中包含了课程信息表,学生信息表以及选课成绩表。DTS工具能够从不同的数据库中自动抽取需要进行分析的数据,并且将其全部集中在一个新的数据库中。新的SQL数据库既可以储存信息,还能够对信息进行管理。联机分析处理技术从不同的角度分析数据,有助于全面了解学生的学习情况和教师的教学质量。
2.2 数据分析的结构
从图2中可以看出,数据分析的结构包括了四层,其中最底层的是各种信息数据库和文本文件,在此基础上建立数据ETL,然后建立相应的维度模型,最后利用联机分析技术对数据进行分析。采集数据和转换数据是使用联机分析技术的基础,也是必不可少的一步。多维度分析是该结构中的最后一步,最终的结果将会把数据转换成图表的形式呈现出来。
2.3 转换数据
由于不同数据的语法可能存在差异,因此,把不同的数据转换成相同的结构显得尤为必要。在联机分析技术应用的过程中,转换数据是关键的一步,能否成功转换数据,决定了维度模型的建立是否具有科学性与全面性。转换数据是为了解决语法,语义结构不同引起的问题。
和数据语义不同相比,处理不同语法的数据显得更为简单。如果数据本身和目标数据之间存在语法结构不同的问题,那么只需要通过函数对其进行转换即可。一般来说,数据本身的内容并不会影响转换过程,只要建立原数据和目标数据之间的对应关系,就能解决数据名称存在冲突的问题。例如,学生数据库本身的信息包括了学生的ID和班级,这就相当于最终目标数据中学生对应的名称和班别。如果数据类型不同,可以运用相应的函数对其进行转换,例如trim()函数就能完成数据的转换。下面是利用函数对原数据中学生的ID,专业以及院名进行转换的过程,其转换代码如下:
Function Main()
DTSDestination(“ID”)=trim(DTSSourse(“名称”))
DTSDestination(“专业”)=cstr(DTSSourse(“专业”))
DTSDestination(“院名”)=trim(DTSSourse(“学院”))
Main=DTSTransformStat_OK
End Function
转换不同语义结构的数据是一个复杂的过程,它需要重视数据本身的信息和内容。因此,仅仅通过一步完成数据转换的过程是几乎不可能的,它需要将原数据进行一次次转换,才能得到最终的目标数据。例如每一个教师都有以及开展项目,在原数据中只能看到项目的名称和论文的名称,如果需要将其转换成教师的论文数量和项目数量,则需要经过两步的数据转换。
2.4 数据结果分析
原数据从SQL中提取出来,然后通过函数对其进行转换,最后利用联机分析技术进行数据管理和分析,从不同的角度研究数据,从而全面分析学生的学习情况和教师的教学情况。数据分析的方法有很多种,其目的都是为了全方位地剖析数据。
2.4.1 高校教师教学质量的对比分析
在教师维度表中,我们已经按照教师的从业年龄,学历以及职称对其进行划分,不同职称的教师,其教学质量有着明显的区别。教师的学历不同,教龄有所差异,这都和教学效果息息相关。
2.4.2 不同时期对教学质量的影响分析
联机分析处理技术能够从多角度分析数据,教学质量不可能是一成不变的,它与多个因素密不可分,时间也是其中一个因素。在不同的时期,由于政策的变动和外界因素的影响,教师的教学质量也会随之而受到不同程度的影响。
2.4.3 教学质量和其他因素息息相关
除了时间和教师的水平会对教学质量造成一定的影响,还有其他因素同样会影响教学效果,例如:学生的学习能力,学校选用的课本等。综合考虑各个因素对教学效果的影响,有利于教育部门更好地作出相应的政策调整。
3 计算机分析处理技术中的数据处理方法分析
无可置疑,计算机技术的出现颠覆了人们传统的思想和工作模式。如今,计算机技术已经全面渗透到我们生活中和工作中的各个方面。不管是在工业生产还是科研数据处理中,计算机技术都发挥着不可替代的作用。如今我们需要处理的数据正与日俱增,这就意味着传统的数据处理方法已经无法满足人们的需求了。仪表生产和系统控制要求数据具有高度精确性,这些数字在显示之前,都必须经过一系列的转换,计算以及处理。首先,数据会以一种形式经过转换器,然后变成另一种新的形式,只有这样计算机才能对数据进行处理和分析。处理数据是一个复杂多变的过程,它的方法并不是单一的,根据数据处理的目标不同,需要选择不同的数据处理方法。例如,有的数据需要进行标度转换,但有些数据只需要进行简单计算即可,计算机技术的不断进步是为了更好地应对人们对数据处理新的需要。
计算机数据处理技术的应用离不开系统,它比传统的系统更加具有优越性:
1)自动更正功能,计算机系统在处理数据时,对于计算结果出现的误差能够及时修正,确保结果的准确度。
2)传统模拟系统只能进行数据的简单计算,而计算机系统则能够处理复杂多变的数据,其适用范围和领域更加广。
3)计算机系统不需要过多的硬件,只需要编写相应的程序就能够完成数据的处理,在节省空间的同时也降低了数据处理的成本。
4)计算机系统特有的监控系统,能够随时监测系统的安全性,从而确保数据的准确度。
对于不同的数据,往往需要采用不同的处理方式,处理数据的简单方法包括查表,计算等。除此之外,标度转换,数字滤波同样是应用十分广的处理技术。
3.1 数据计算
在各种数据处理方法中,计算法是最为简单的一种,利用现有的数据设置程序,然后直接通过计算得出最终的目标数据。一般来说,利用这种方法处理数据需要遵循一个过程:首先,求表达式,这是计算法最基本的一步;其次,设计电路,在此之前必须将转换器的位数确定下来;最后,利用第一步已经求出的表达式运算数据。
3.2 数据查表
3.2.1 按顺序查表格
当需要搜索表格中的数据时,往往需要按照一定的顺序和步骤。首先,明确表格的地址和长度,然后再设置关键词,最后按照顺序进行搜索。
3.2.2 通过计算查表格
这是一种较为简单的方法,适用范围并不广。只有当数据之间表现出明显的规律或者数据之间存在某种关系时,才能够使用这种方法查表格。
3.2.3 利用程序查表格
相比于上述的两种方法,利用程序查表格是一种相对复杂的方法,但是这种方法的优点在于查找效率高,并且准确度高。
3.3 数据滤波处理
采集数据并不难,但是确保每一个数据的真实性却十分困难,尤其是在工业系统中,数据的测量难以确保绝对准确,因为在测量的过程中,外界环境对数据的影响往往是难以预估的。为了提高数据处理的精确度和准确率,需要借助检测系统对采集的数据进行深加工。尽可能地让处理的数据接近真实的数据,并且在数据采集的过程中最大限度地减少外界因素对其的影响,从而提高计算结果的准确度。
滤波处理技术的应用首先要确定数据的偏差,一般来说,每两个测量数据之间都会存在一定的误差,首先需要计算数据与数据之间可能出现的最大误差。一旦超出这一数值,可以认定数据无效,只有符合偏差范围内的数据,才能进行下一步的处理。
为了减少由于外界影响导致数据失真的情况,利用程序过滤数据是很有必要的。滤波技术有几种,根据不同的需要可以选择相应的数据处理技术,每一种数据滤波技术都有其适用范围和优点。数据滤波技术包括算术平均值滤波,加权平均值滤波,中值滤波,限幅滤波,限速滤波以及其他类型的滤波技术。
3.4 转换量程和标度
在测量数据的过程中,每一种参数都有相应的单位,为了方便数据处理,需要使用转换器把数据转换为统一的信号。标度转换是必不可少的,为了加强系统的管理和监测,需要不同单位的数字量。转换方法包括非线性参数标度变换,参数标度变换,量程转换,这几种转换方法在数据处理的过程中较为常见。当计算过程遇到困难,可以结合其他的标度转换方法进行数据处理。
3.5 非线性补偿计算法
3.5.1 线性插值计算方法
信号的输入和输出往往会存在一定的关系。曲线的斜率和误差之间存在正相关关系,斜率越大,误差越大。由此可见,这一计算方法仅仅适用于处理变化不大的数据。当曲线绘制选用的数据越多,曲线的准确程度越高,偏差越小。
3.5.2 抛物线计算方法
抛物线计算方法是一种常用的数据处理方法,只需要采集三组数据,就可以连成一条抛物线。相比于直线,抛物线更加接近真实的曲线,从而提高数据的准确度。抛物线计算法的过程,只需要求出最后两步计算中的M值,就能够直接输入数据得出结果。
3.6 数据长度的处理
当输入数据和输出数据的长度不一,需要对其进行转换,使数据长度达到一致。由于采集数据所使用的转换器和转换数据所选择的转换器不同,因此,当输入位数大于输出位数,可以通过移位的方法使位数变成相同。相反,当输入位数少于输出位数时,可以使用填充的方法将其转换成相同的位数。
4 结语
本文对联机分析技术进行了详细的论述,该技术的应用对于评价教学效果有着重要的意义。在物理公共课程中,教学数据数量巨大,如果利用传统的方法对其进行分析,将会耗费大量的人力物力,而采用OLAP技术则能更加快速准确地分析处理数据。数据分析是评估教学质量必经的过程,而使用QLAP技术是为了能够多层次,全方位地分析各个因素对教学质量的影响,从而更好地改进高校教育中存在的不足。除了分析物理课程数据,联机分析技术同样适用于其他课程的数据处理和分析。
参考文献:
[1] Ralph kimball,Margy Ross.The Data Warehouse Toolkit:the Complete Guide to Dimensional Modeling[M]..北京:电子工业出版社,2003.