时间:2022-04-30 18:12:47
序论:在您撰写大数据分析论文时,参考他人的优秀作品可以开阔视野,小编为您整理的7篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。
煤矿安全生产和管理是一个与时间和空间相关的过程,其综合决策分析离不开时间和空间维度的参与,而现有的煤矿信息系统往往缺乏时空维度的决策分析工具,如拓扑分析、缓冲区分析、密度分析、叠置分析、时间和空间趋势探测分析、时间/空间关联分析、时间/空间自回归分析等。煤矿安全生产内涵丰富,既包含了日常性事务性的风险超前预控管理,又包含即时性的风险识别、监测、预测乃至预警,这就给安全生产管理的各类信息系统建设提出了很高的要求,需要满足监控实时化、系统集成化、数据海量化、分析决策在线化和智能化,这些都是目前信息系统建设的短板。上述问题的存在使得我国煤矿安全生产形势没有本质的好转,诸多信息化建设成果(硬件、软件)在煤矿安全生产过程中也没有起到预期的成效。
2.1大数据分析的概念大数据分析
是指数据量急剧积累迅速超出主流软件工具和人类思维处理的极限,大数据与传统数据比较起来,有四大特征:数据体量巨大(Volume)、数据类型繁多(Variety)、数据价值密度低(Value)、更新速度快时效高(Velocity)。大数据分析需要全新的数据处理理念和分析工具,洞察发现海量高速增长信息中潜藏的价值[4]。从理念上,大数据分析与传统数据分析有三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。针对大数据,既有的技术架构和分析工具已经无法满足要求,需要全新的数据分析方法和技术,这其中包括:(1)大数据分析可视化方法;(2)大数据挖掘算法;(3)预测性分析能力;(4)语义处理能力;(5)数据质量和数据管理技术。
2.2大数据分析系统的建设
根据大数据处理和分析的理念,煤矿安全大数据分析系统的建设目标包括:数据综合集成、安全知识集成、三维虚拟可视化展示、煤矿安全动态分析诊断。具体建设内容包括:(1)基于物联网/云计算技术的煤矿安全综合数据库。建设煤矿安全大数据分析诊断系统,首先要利用物联网和云计算技术实现全面综合的数据集成,将基础空间和属性数据、在线监测的实时性数据、专业业务系统的事务性数据综合集成起来,构建煤矿安全综合数据库。(2)基于专家系统的煤矿安全专家知识库。针对知识集成的目标,整理规范规程体系中的经验或者理论知识(煤矿安全规程、煤矿作业规程、三违行为知识、隐患界定知识、评估模型、设备操作规程知识、工种操作规程知识),构建煤矿安全动态分析诊断的专家知识库。(3)建设三维虚拟矿井可视化平台。针对信息和知识三维虚拟矿井可视化展示分析,主要的建设内容是基于高精度地质模型理论研究开发三维虚拟矿井平台,实现地层建模、钻孔建模、断层建模、工作面建模和巷道建模等工作。然后,基于三维虚拟矿井平台,实现数据和知识可视化、煤矿安全生产活动可视化、分析和决策过程可视化。(4)研发煤矿安全动态分析系统。针对基于专家知识库的煤矿安全生产分析决策,需要利用煤矿安全综合数据库中的基础数据、实时监测数据以及事务性数据,根据煤矿安全专家知识库进行煤矿安全生产状况评估、推理和演绎,动态分析诊断煤矿安全生产的现状与趋势、预测未来,并针对煤矿应急现象做出科学合理的响应对策。
3结语
基本的大数据的处理流程可以分成数据采集、数据处理与集成、数据分析和数据解释4个阶段。首先获取数据源的数据,因为在数据源端的数据包含各种各样的结构,需要使用某种方法将其进行预处理,使数据成为某种可以用一种算法分析的统一数据格式,接着需要找到这种数据分析的算法,将预处理过的数据进行算法特定的分析,并将分析的结果用可视化等手段呈现至用户端。
1.1数据采集
大数据的采集是整个流程的基础,随着互联网技术和应用的发展以及各种终端设备的普及,使得数据的生产者范围越来越大,数据的产量也越来越多,数据之间的关联也越来越复杂,这也是大数据中“大”的体现,所以需要提高数据采集速度和精度要求。
1.2数据处理与集成
数据的处理与集成主要是对前一步采集到的大量数据进行适当的预处理,包括格式化、去噪以及进一步集成存储。因为数据采集步骤采集到的数据各种各样,其数据结构也并不统一,不利于之后的数据分析,而且,一些数据属于无效数据,需要去除,否则会影响数据分析的精度和可靠性,所以,需要将数据统一格式并且去除无效数据。通常会设计一些过滤器来完成这一任务。
1.3数据分析
在完成了数据的采集和处理后,需要对数据进行分析,因为在进行数据分析后才能体现所有大数据的重要价值。数据分析的对象是上一步数据的处理与集成后的统一格式数据,需要根据所需数据的应用需求和价值体现方向对这些原始样本数据进一步地处理和分析。现有的数据分析通常指采用数据仓库和数据挖掘工具对集中存储的数据进行分析,数据分析服务与传统数据分析的差别在于其面向的对象不是数据,而是数据服务。
1.4数据解释
数据解释是对大数据分析结果的解释与展现,在数据处理流程中,数据结果的解释步骤是大数据分析的用户直接面对成果的步骤,传统的数据显示方式是用文本形式体现的,但是,随着数据量的加大,其分析结果也更复杂,传统的数据显示方法已经不足以满足数据分析结果输出的需求,因此,数据分析企业会引入“数据可视化技术”作为数据解释方式。通过可视化结果分析,可以形象地向用户展示数据分析结果。
2云计算与大数据分析的关系
云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源,是一种按使用量付费的模式。这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。目前,国内外已经有不少成熟的云计算的应用服务。数据分析是整个大数据处理流程里最核心的部分。数据分析是以数据的价值分析为目的的活动,而基于大数据的数据分析通常表现为对已获取的海量数据的分析,其数据来源可能是企业数据也可能是企业数据与互联网数据的融合。从目前的趋势来看,云计算是大数据的IT基础,是大数据分析的支撑平台,不断增长的数据量需要性能更高的数据分析平台承载。所以,云计算技术的不断发展可以为大数据分析提供更为灵活、迅速的部署方案,使得大数据分析的结果更加精确。另一方面,云计算的出现为大数据分析提供了扩展性更强,使用成本更低的存储资源和计算资源,使得中小企业也可以通过云计算来实现属于自己的大数据分析产品。大数据技术本身也是云计算技术的一种延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、数据库、实时流数据处理以及智能分析技术,如模式识别、自然语言理解、应用知识库等等。但是,大数据分析要走向云计算还要赖于数据通信带宽的提高和云资源的建设,需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。
3基于云计算环境的Hadoop
为了给大数据处理分析提供一个性能更高、可靠性更好的平台,研究者基于MapReduce开发了一个基于云计算环境的开源平台Hadoop。Hadoop是一个以MapReduce算法为分布式计算框架,包括分布式文件系统(HDFS)、分布式数据库(Hbase、Cassandra)等功能模块在内的完整生态系统,已经成为当前最流行的大数据处理平台,并被广泛认可和开发应用。基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个节点组成的大规模计算机集群上。
4实例分析
本节以电信运营商为例,说明在云计算环境中基于Hadoop的大数据分析给大数据用户带来的价值。当前传统语音和短信业务量下滑,智能终端快速增长,移动互联网业务发展迅速,大数据分析可以为运营商带来新的机会,帮助运营商更好地转型。本文数据分析样本来自于某运营商的个人语音和数据业务清单,通过Hadoop2.6.0在Ubuntu12.04系统中模拟了一个大数据分析平台来处理获得的样本。希望通过对样本数据的分析与挖掘,掌握样本本身的一些信息。以上分析只是一些很基本的简单分析,实际上样本数据中所蕴含的价值要远远大于本文体现的。以上举例意在说明基于云计算的大数据分析可以在数据分析上体现出良好的性能,为企业带来更丰富更有效率的信息提取、分类,并从中获益。
5结束语
关键词:大数据 交易平台 数据资源 数据分析服务 融合
1.引言
目前发展大数据产业已经上升为国家战略,大数据的价值也得到了社会的广泛认可。众多研究[1-5]表明,大数据不仅为政府治理开辟了新思路,还是企业创新的重要源泉和高校科研的重要支撑。大数据交易平台是整个大数据产业的基础与核心,它使得数据资源可以在不同组织之间流动,从而让单个组织能够获得更多、更全面的数据。这样不仅提高了数据资源的利用效率,更重要的是,当一个组织拥有的数据资源不断丰富和立体化,有助于其通过数据分析发现更多的潜在规律,从而对内提高自身的效率,对外促进整个社会的不断进步。
在现有的大数据交易平台上,数据供应方和需求方各自供需信息,交易双方浏览这些信息,如果发现合适的交易对象,则进行大数据资源的买卖,交易平台只作为信息中介存在。这类大数据交易的本质,其实是单独的大数据资源交易,现有平台可以统称为第一代大数据交易平台。第一代大数据交易平台在供需平衡、数据定价和时效性三个方面都存在较大的不足。本文针对这些不足进行改进,设计了一种全新的第二代大数据交易平台,命名为:融合数据分析服务的大数据交易平台,该平台将数据资源交易与数据分析服务进行深度融合,实现了数据与服务的一体化交易。本研究不仅为当下正在建设的各类大数据交易平台提供有益的借鉴,也丰富了大数据交易的基础理论体系。
2.相关研究
目前大数据交易的相关研究中,比较有代表性的有:
(1)大数据的财产属性和所有权。王玉林等[6]对大数据的财产属性展开研究,认为大数据的法律属性会直接影响大数据产业的发展,而大数据交易实践本身就反映出大数据具有财产属性。但大数据与传统的财产权客体存在较大不同,它符合信息财产的特征,是信息财产权的客体,应受到相关法律的保护。齐爱民等[7]从宏观的角度分析了国家对于其主权范围内数据的所有权,剖析了个人拥有的数据权以及数据的财产权。
(2)大数据的定价问题。刘朝阳[8]对大数据的定价问题展开研究,首先分析了大数据的基本特征、价值特征等定价基础。接着讨论了效用价格论、成本价格论等定价模式。最后分析了大数据的定价策略,并对大数据定价的双向不确定问题进行了详细论述。刘洪玉等[9]认为在大数据交易过程中,由于缺乏足够的历史参考,其数据资源的交易价格很难确定,因此提出一种基于竞标机制的鲁宾斯坦模型,用于大数据交易双方进行讨价还价,以求达成一个交易的均衡价格。翟丽丽等[10]从资产的期权价值角度来评估大数据资源的价值,并指出数据在不断变化和更新,加上数据的非独占性等情况的出现,数据资产的价值可能会下降,最后综合这些因素构建了一个评估模型来计算数据资产的价值。
(3)大数据交易的安全与隐私保护。史宇航[11]认为非法的数据交易会对个人数据等高价值信息的安全造成影响,对非法数据交易的购买方和协助方都应进行处罚。提出应先明确数据的法律属性,再以数据交易所为平台进行交易,并对数据交易所的法律地位进行了分析。殷建立等[12]为应对大数据时代数据采集、交易等过程中的安全问题,综合考虑技术、政策和管理平台等方面的因素,构建了一种个人数据溯源管理体系,该体系可在数据应用时实现个人数据的追踪溯源,从而保护其个人隐私。王忠[13]认为大数据环境下强大的数据需求会导致个人数据的非法交易,为应对这种情况,应该建立个人数据交易许可机制,通过发放交易许可证、拍卖授予等措施实现隐私保护。
(4)大数据交易的发展现状与问题。杨琪等[14]认为我国的大数据交易还处于行业发展的早期,大量数据源未被激活,原因是大数据产业价值链的各个专业环节发展滞后,并且对数据交易中的安全问题和隐私泄露等有较大的担忧。应该对数据产品进行改造,使其更商品化,并且通过政府开放公共数据等措施逐渐消除数据流通中的安全顾虑。唐斯斯等[15]首先分析了我国大数据交易的发展特点、交易类型等现状,接着指出目前大数据交易存在法律法规相对滞后、行业标准不完善、交易平台定位不明确、数据质量不高等问题,最后提出应加快相关法律和标准建设,并推动数据开放,加强交易方式的创新。
除了上述四个主要研究方向以外,李国杰等[16]从理论的角度分析了大数据研究在行业应用和科学研究方面的重要作用,这从客观上反映了大数据流通的必要性。涂永前等[17]认为大数据时代企业管理和运用数据资源的相关成本会成为企业的主要交易成本,这会改变企业的组织结构,并导致企业边界的变化,企业会进行多方向的扩张,这为促进大数据产业发展的相关法律的制定提供了理论支持。总的来看,由于大数据交易本身属于较新的领域,因此相关研究总体上较少,已有研究也大多集中在上述几个研究方向上。实际上,大数据交易平台是实现大数据交易的重要载体,是大数据资源流通转换的主要节点,交易平台本身需要随着整个大数据产业的发展,不断的改进和升级,而现有研究中恰恰缺少对大数据交易平台本身进行创新的研究。由此,本文针对现有大数据交易平台的不足,结合实际设计了一种全新的融合数据分析服务的大数据交易平台,为实践和科研提供借鉴和参考。
3.现有大数据交易平台的不足
大数据本身作为一种新兴事物,当把它作为一种商品进行交易时,其交易平台的设计很自然会参照传统的商品交易模式,即:交易双方先供求信息,再经过讨价还价,达到一个均衡的价格则成交,卖方将大数据资源经过脱敏处理后,交付给买方。目前无论是政府主导的大数据交易所,还是企业或者高校创建的大数据交易平台,都是采用类似的交易模式,这也是第一代大数据交易平台的突出特点。实际上大数据与传统商品有很大的区别,照搬传统商品的交易模式会出现很多问题。本文将从供需平衡、数据定价和时效性三个方面分析现有大数据交易平台的不足。
3.1 数据供需的错配
现有大数据交易平台的第一点不足就是数据供需的错配,即:供应方提供的数据资源往往不是需求方所需要的,而需求方需要的数据在交易平台上找不到,即使有相近的数据资源,也存在很大的数据缺失或冗余,买回去也无法使用。对数据供应方来说,由于无法准确预知数据买方多样性的需求,它只能从自身角度出发,将可以公开的、并且自认为有价值的数据资源放到平台上待售。对需求各异的买方来说,供应方提供的标准数据很难与自己的应用方向精准匹配,这也是目前大数据交易还不够活跃的原因。当然,当供需双方建立初步联系以后,供应方甚至可以为需求方个性化定制大数据资源,但即使这样,供需错配的问题仍然无法解决,原因就在于单个的数据供应方无法提供多维的数据资源,只有多维的数据资源才具有较高的分析价值。
3.2 大数据资源定价困难
大数据资源定价困难是现有大数据交易平台的第二点不足。大数据资源和普通商品不同,普通商品可以直接消费或者作为再加工的原材料,其价值都可以通过最终的消费品价格得到体现。而大数据本身的价值无法直接衡量,需求方购买它的目的是作为数据分析的信息源,但是否能发现潜在的规律还未可知。因此无法在购买前,准确判断出待售数据资源的价值大小。此外,需求方在不确定某大数据资源是否能真正能给组织带来收益情况下,很难给出一个较高的价格,这在客观上会影响数据供应方的交易积极性,加大了供需双方达成交易的难度。
3.3 数据的时效性不强
现有大数据交易平台的第三点不足,就是数据资源的时效性不强。目前很多大数据交易平台上待售的数据资源都以历史数据为主,这是因为数据资源在交易前需要经历脱敏处理,将涉及政府信息安全、企业商业机密和个人隐私等敏感信息进行变换和替代。此外,供应方还需要对原始数据进行初步的清洗,整理成一定的数据格式集中存贮和交付,方便需求方进行数据分析。由于一般的数据供应方并不具备对大数据进行实时脱敏和清洗的能力,只能将采集到的数据资源,经过一段时间的离线处理后,再放到交易平台上,所以只能供应历史数据。随着社会节奏的不断加快,历史数据很可能并不能反映当下的真实情况,越来越多的数据分析都需要用到实时数据作为信息源,这是未来大数据交易必须克服的一个短板。
4.融合数据分析服务的大数据交易平台设计
本文提出将数据分析服务融合到目前的大数据交易中,以此来克服现有交易平台的不足,本节将首先对数据分析服务进行概念界定,再依次介绍平台设计的总体思路和核心模块的设计,具体如下。
4.1 数据分析服务的概念界定
数据分析是指运用各类数据处理模型和信息技术手段,对数据资源进行深度的挖掘,从而发现其中蕴含的规律,作为管理决策的依据。数据分析本身是一种能力,如果一个组织将其数据分析能力提供给其他组织或个人,并收取一定的费用,这就是数据分析服务。在大数据环境下,数据资源不仅体量巨大而且种类多,对数据分析能力的要求不断提高。在这种情况下,只有少数组织具备独立处理大数据的能力,其他的组织比如大量的中小企业,都需要从组织外部寻求专业的数据分析服务,来满足自身的需要。因此,数据分析服务和大数据资源一样存在巨大的市场需求。
4.2 平台设计的总体思路
本文将提出的融合数据分析服务的大数据交易平台,定位为第二代大数据交易平台,它将大数据资源交易与数据分析服务两者进行深度融合,在交易平台上实现数据与服务的一体化交易。大数据交易平台的角色也从原来的数据资源买卖的信息中介,转变为大数据综合服务商。在融合后的大数据交易平台上,数据需求方不再提交数据资源的需求信息,而是直接提出自己的应用方向和想要得到的结果,交易平台再根据需求方的应用方向,反向匹配数据资源和数据分析服务。这个匹配的过程不是单一的数据集或服务的查找,而是对全平台的数据资源进行有效整合,形成高价值的多维数据,再结合复合型的数据分析技术,得到最终的分析结果,最后将分析结果与基础数据一同交付给需求方。交付基础数据的目的,一是方便需求方进行分析结果的对照,为决策提供更精准的参考。二是需求方可以根据基础数据进行衍生挖掘,进一步提高数据的利用效率。平台设计的总体思路绘制成图1。
图1 平台设计的总体思路
4.3 核心模块的设计
融合数据分析服务的大数据交易平台共划分为四大模块,具体如图2所示。
图2 融合数据分析服务的大数据交易平台的主要模块
系统管理模块具体又分为用户管理、系统维护和安全管理。安全管理是系统管理模块的重点,主要包含三个方面的功能:第一,负责整个交易平台的系统安全,通过对交易平台进行实时监控,阻止外部的非法入侵行为,保障平台的正常运行。第二,对数据供应方提交的数据资源进行审核,如果发现是非法数据,则阻止其交易,并及时将有关情况反馈给相关的政府监管部门,由它们进行调查处理。第三,检查所有数据是否经过脱敏处理。如果发现部分数据存在未脱敏或者脱敏不合格的情况,交易平台将负责对该数据资源进行脱敏处理,从而保护数据中的隐私不被泄露。
大数据资源池模块、数据分析服务模块和协同模块是交易平台的三大核心模块,是数据与服务两者融合并实现一体化交易的关键,本文接下来将对这三个核心模块的功能进行详细设计。
4.3.1 大数据资源池模块
大数据资源池模块主要包含三个方面的功能:数据资源格式的整理、数据的多维度整合、大数据资源的云存贮。具体如下。
(1)数据资源格式的整理。由于大数据交易平台上的数据资源来自不同的数据供应方,因此其数据资源的格式会有较大的差异。如果不经过格式整理就直接进行数据分析,很可能会因部分数据无法准确读取,而影响数据处理的效率,严重者还会导致数据分析中断。数据资源格式整理的主要任务是将同一类型数据的格式进行统一,对部分缺失的数据属性进行补充,对错误的数据格式进行修正。
(2)数据的多维度整合。在上文3.1中提到供需错配的一个重要原因,就是单个数据供应方无法提供高价值的多维数据。所谓多维数据是包含用户或者行业多个背景和情境的大数据资源,这些多维数据使用户或行业多个侧面的信息产生了关联,有利于发现深层次的潜在规律。融合数据分析服务的大数据交易平台应该作为数据整合的主体,将单个数据供应方提供的零散的数据资源,进行多维度的整合,当缺少某一个维度的数据时,再向相应的数据供应方进行定向的采集,最后得到相对完整的多维数据,具有很高的分析价值。
(3)大数据资源的云存贮。大数据资源经过格式整理和多维度整合以后,已经可以作为数据分析服务的信息源。下一步就是将这些数据资源进行统一的云存贮,以便数据分析服务调用。以往部分大数据资源由于体量巨大或实时更新的需要,无法上传到交易平台上,或者只提供部分调用接口。融合数据分析服务的大数据交易平台通过建立云存贮中心,将整合后的多维数据进行统一存放和调用,有助于提高数据资源的存取效率。
4.3.2 数据分析服务模块
数据分析服务模块首先根据数据需求方的应用方向,匹配出合适的多维数据资源,再选择相应的数据分析模型分配所需的计算能力,最后将得到的分析结果反馈给需求方。本文将数据分析服务划分为三个大类:基础性分析服务、高级分析服务、深度定制的分析服务。具体如下。
(1)基础性分析服务。基础性分析服务是指那些常规的数据统计,比如:总体中不同对象的占比分析,基于不同属性的关联分析或相关性分析等。这些分析服务耗时较短,分析技术较为简单,只要数据资源本身完备,就可以迅速得到结果。基础性分析服务由大数据交易平台本身来提供,可以面对不同的需求方,实现快速交付。
(2)高级分析服务。高级分析服务是指那些较为复杂的数据分析服务,比如:精准的趋势预测、全面的用户兴趣画像、非结构化的信息挖掘等。这些分析服务需要大量专业的数据处理技术,比如:兴趣建模、视频分析,音频分析、深度语义分析等,必须由大数据交易平台对接第三方的数据分析服务商,由它们来提供高级分析服务。大数据交易平台在同一数据分析领域,应引入多家数据分析服务商,通过动态的竞争,来保证服务的质量。
(3)深度定制的分析服务。大数据分析目前还处在快速发展阶段,很多前瞻性的技术还在试验当中,应该说数据分析技术的发展相对于旺盛的现实需求来说是滞后的。当需要用的某一数据分析技术,在目前的市场上还找不到现成的提供方时,就需要大数据交易平台为其进行深度的定制,交易平台通过多方位的研发能力评估,寻找合适的技术主体来进行专门的技术攻关。
4.3.3 协同模块
协同模块主要包含两个方面的功能:数据分析服务之间的技术协同、交易各方的管理协同。具体如下。
(1)数据分析服务之间的技术协同。在面临较为复杂的数据分析任务时,可能需要用到多个领域的数据分析技术,这时单个的数据分析服务商可能无法独立完成。因为不同的行业领域,都有其行业技术的独特性,需要长时间的专业积累。在这种情况下,就需要多个数据分析服务商相互合作才能完成。数据分析服务之间的技术协同,就是通过一定的技术标准和操作规范,让多个数据分析技术提供方,能够在完成同一任务时,在技术上不冲突,能够相互并行的完成对数据资源的处理,按时按质的交付最终的分析结果。
(2)交易各方的管理协同。在融合数据分析服务的大数据交易平台上,交易的参与者一共有四类,分别是数据资源的供应方、数据分析服务商、需求方和交易平台自身。数据需求方在提交自己的应用方向和预期结果的同时,提交自己的交易预算。交易平台根据需求方提交的应用方向和预期结果,对数据资源和数据分析服务进行反向的选择。如果数据分析任务中只用到了基础性分析服务,则整个交易为平台方、需求方、数据资源供应方的三方交易。如果某数据分析任务,平台自身无法完成,需要用到第三方的数据分析服务商,则整个交易包含了全部四类参与者,是一个四方交易。交易的基本原则是实现参与各方的利益共享。交易各方的具体利益分配如图3所示。
图3 交易各方的利益分配
需求方希望在获得预期结果的同时,其支付的成本在可接受的范围内。交易平台在对数据和服务进行反向匹配后,会出现两种不同的情况:第一种情况是在原交易预算下,可以达到需求方预期的结果,则可成交。第二种情况是,原交易预算较低,在该预算下无法达到需求方要求的结果,这时交易平台会和需求方沟通,提出新的报价,需求方经过考虑后,与平台进行讨价还价,它们在价格上达成一致时才能完成交易。由于交易数据是整合后的多维数据,因此原始数据资源供应方的收益,由平台从总交易价中支付,具体的支付方式可分为平台一次性买断或按次数支付。同一数据资源对于不同的需求者来说,其价值是不一样的,融合数据分析服务的大数据交易平台根据最终的一体化交易成交价,反向对数据资源进行定价,相对于现有的大数据交易平台来说,是一种进步。交易平台的深度参与,会使数据交易的频率加快,原始数据资源供应方会获得更多的收益。数据分析服务商根据具体的数据分析任务,直接参与由平台发起的竞价,达成交易后由平台支付。交易平台本身的收益则是需求方支付额减去其他各方收益的差价。
5.融合数据分析服务的大数据交易平台的优势
本文3.1到3.3中指出现有大数据交易平台存在数据供需错配、大数据资源定价困难、数据的时效性不强三大不足。融合数据分析服务的大数据交易平台作为改进后的第二代大数据交易平台,可以很好地克服上述三点不足。除了这三个方面的优势以外,由于融合后可实现数据与服务的一体化交易,这将扩大交易对象的覆盖范围,提升交易的活力,具体如下。
5.1 直接面向应用,从根本上避免了数据供需的错配
在融合数据分析服务的大数据交易平台上,需求方对交易平台直接提出应用方向和预期结果。交易平台对全平台的数据进行多维度整合,如果缺失某个维度的数据,可以进行定向的采集和补充,最后形成高价值的多维数据。这些多维数据才是真正具有分析价值的数据资源,这是单个数据供应方无法提供的。在得到多维数据后,结合平台自身和第三方数据服务商的分析能力,得到最终的分析结果。交易平台最后交付给需求方的是数据分析结果和基础数据,这种直接面向最终应用的大数据交易方式,从根本上避免了数据供需的错配。
5.2 融合后定价更有根据
在现有的大数据平台上,数据需求方是将数据资源买回去以后自己分析,而在购买数据资源之前,不能预知数据分析效果的好坏,因此无法进行有效的价值判断,这是定价困难的关键点。在融合数据分析服务的大数据交易平台上,需求方不再直接对数据资源付费,而是对最终的数据分析结果付费,并且数据分析结果是根据需求方的要求反向定制的,是符合需求方利益的。需求方可以通过评估预期结果对自身的重要性或收益的改进程度,给出适当的交易预算。交易平台以该预算为参照,对数据和服务进行选择,若出现原预算约束下无法实现预期结果的情况,交易平台再与需求方进行沟通,双方讨价还价后达成交易。这样相对于现有的大数据交易平台来说,融合后定价更有依据。
5.3 融合后可提供实时数据
在融合数据分析服务的大数据交易平台上,数据资源采用云存贮的模式,由平台进行统一管理,这提高了数据资源的安全性。在数据安全有保障的前提下,由交易平台出面和数据资源供应方进行实时数据的对接,将实时数据纳入大数据资源池中。对于单个的数据资源供应方来说,实时的数据脱敏难度太大。但大数据交易平台不一样,它可以利用规模优势,组建强大的计算能力,对大数据资源进行实时的脱敏和清洗,极大地提高了数据资源的时效性。
5.4 融合后将扩大交易对象的覆盖范围,提升交易的活力
融合后可实现数据和服务的一体化交易,让很多自身不具备数据分析能力的组织和个人,也能方便地利用大数据,特别是大量的中小企业,这将大大增加交易对象的覆盖范围。
交易对象的增多会促进交易频率的增长,从而为数据资源供应方带来更多的收益,这样会提升它们参与交易的积极性,鼓励它们供应更多的数据资源,从而提升交易的活力,整个大数据交易行业就形成了正向循环的良好发展态势。
6结语
本文对大数据交易平台本身进行了改进与创新,设计了一种全新的第二代大数据交易平台,即:融合数据分析服务的大数据交易平台。该交易平台可以直接面向需求方的应用方向,实现数据和服务的一体化交易,不仅从根本上避免了数据供需的错配,还使大数据交易的定价更有依据,平台的深度参也让提供实时数据成为可能,这些将从整体上提升大数据交易的效率。融合后数据和服务的一体化交易降低了大数据应用的技术门槛,鼓励更多组织和个人参与,增加了交易活力。未来笔者将继续关注大数据交易平台的创新研究,为实际应用和学术科研提供更多有益的参考。
参考文献
[1]赵强,单炜.大数据政府创新:基于数据流的公共价值创造[J].中国科技论坛,2014(12):23-27.
[2]徐继华,冯启娜,陈贞汝.智慧政府:大数据治国时代的来临[M].北京:中信出版社,2014.
[3]李文莲,夏健明.基于“大数据”的商业模式创新[J].中国工业经济,2013(5):83-95.
[4]侯锡林,李天柱,马佳,等.大数据环境下企业创新机会研究[J].科技进步与对策,2014,31(24):82-86.
[5]张峰,张迪.论大数据时代科研方法新特征及其影响[J].科学学研究,2016,34(2):166-170,202.
[6]王玉林,高富平.大数据的财产属性研究[J]。图书与情报,2016(1):29-35,43.
[7]齐爱民,盘佳.数据权、数据主权的确立与大数据保护的基本原则[J].苏州大学学报:哲学社会科学版,2015(1):64-70.
[8]刘朝阳.大数据定价问题分析[J].图书情报知识,2016(1):57-64.
[9]刘洪玉,张晓玉,侯锡林.基于讨价还价博弈模型的大数据交易价格研究[J].中国冶金教育,2015(6):86-91.
[10]翟丽丽,王佳妮,何晓燕.移动云计算联盟企业数据资产评估方法研究[J].价格理论与实践,2016(2):153-156.
[11]史宇航.个人数据交易的法律规制[J].情报理论与实践,2016,39(5):34-39.
[12]殷建立,王忠.大数据环境下个人数据溯源管理体系研究[J].情报科学,2016,34(2):139-143.
[13]王忠.大数据时代个人数据交易许可机制研究[J].理论月刊,2015(6):131-135.
[14]杨琪,龚南宁 .我国大数据交易的主要问题及建议[J].大数据,2015(2):38-48.
系统主要实现软件的模块话设计,包括反射率数据分析模块、速度分析模块、天线运行稳定性分析模块以及雷达组网数据分析模块。
1.1反射率分析模块
反射率的大小体现了气象目标的降水粒子的密度分布及体积大小,在实际气象技术中长期用于表示气象目标的强度,在工作上采用dBZ单位表示。对于空管气象雷达图,数据显示采用PPI(PlanPositionImage)显示方式。该方式决定了一张气象雷达图由圆锥俯视平面上分析空间的回波构成。在设计上简单介绍其设计流程,首先必须读取原始数据,并判断是否首次读取,若为首次读取则对其进行预处理,否则进行坐标转换;其次进行图像绘制并判断是否需要改变仰角。此处需要关注的关键是如何进行数据的预处理。在实现上,对接收的数据进行反射率信息结构体赋值。当然该结构体包括了记录实际仰角角度、数据文件路径存储、雷达波段判断以及相关数据的偏移。通过扫描上述结构体可以实现对雷达数据的预处理。
1.2速度分析模块
多普勒雷达采用了速度退化模糊技术以扩大其对径向风速测量不模糊的区间。结构设计主要考虑数据显示的径向方式,流程设计则与反射模块类似。当然在界面设计上,系统将提供对颜色配置的定义,使其人机交互更为快捷。
1.3天线稳定性分析模块
天线是雷达数据采集的关键部位,长期以来是影响雷达运行的主要关键点之一。其依赖于底下的电机进行旋转,目前大多数进口电机可以保证24小时安全运行。而运行时仰角提升和转速的平稳性直接影响雷达数据的采集。为此,我们通过在径向数据上采用方位角及仰角进行扫描实现曲线图监控。通过选择基数据再进行预处理后绘制相关曲线实现对天线运行状态的评估。其中,曲线图的绘制需要的参数为:纵坐标为气象雷达实际运行的每层仰角均值;横坐标为范围角:0-360°。
1.4雷达组网分析模块
按照民航局的总体规划,未来空管将实现多气象雷达覆盖,在这过程,多个气象雷达的组网将成为气象雷达数据的主要来源。这种模式将使得数据覆盖面更大、数据安全性更高、数据准确性更强。而与此同时带来了雷达数据融合组网的技术难点。设计上,首先模块将定义雷达站点配置信息,并与此同时提供组网雷达可选数据;其次对选择雷达数据进行数据预处理;再之则对雷达数据进行统计平均并做坐标转换;最后进行拼图处理。在这过程中,需要对雷达数据的强度进行自适应调整、显示范围自适应调整。与上述同理,系统核心在于预处理。在C#中定义List数据列表,并在定义其结构为[站点标示][距离][方位角],对于数据读取时,需要进行插值算法处理,此时的单时数据拼接分析可以实现不同仰角和方位角的筛选。为了控制系统数据的准确性可以在前端定义雷达数据方位角表,根据表进行映射处理。通常如若出现非连续数据可以在预处理上对其进行差值补偿。在C#上可以采用反差圆补偿方法。
2.结束语
大数据背景下的机器算法
专业
计算机科学与技术
学生姓名
杨宇潇
学号
181719251864
一、 选题的背景、研究现状与意义
为什么大数据分析很重要?大数据分析可帮助组织利用其数据并使用它来识别新的机会。反过来,这将导致更明智的业务移动,更有效的运营,更高的利润和更快乐的客户。
在许多早期的互联网和技术公司的支持下,大数据在2000年代初的数据热潮期间出现。有史以来第一次,软件和硬件功能是消费者产生的大量非结构化信息。搜索引擎,移动设备和工业机械等新技术可提供公司可以处理并持续增长的数据。随着可以收集的天文数据数量的增长,很明显,传统数据技术(例如数据仓库和关系数据库)不适合与大量非结构化数据一起使用。 Apache软件基金会启动了第一个大数据创新项目。最重要的贡献来自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是复杂数据准备和ETL的旗舰,可以为许多数据存储或分析环境提供信息以进行深入分析。 Apache Spark(由加州大学伯克利分校开发)通常用于大容量计算任务。这些任务通常是批处理ETL和ML工作负载,但与Apache Kafka等技术结合使用。
随着数据呈指数级增长,企业必须不断扩展其基础架构以最大化其数据的经济价值。在大数据的早期(大约2008年),Hadoop被大公司首次认可时,维护有用的生产系统非常昂贵且效率低下。要使用大数据,您还需要适当的人员和软件技能,以及用于处理数据和查询速度的硬件。协调所有内容同时运行是一项艰巨的任务,许多大数据项目都将失败。如今,云计算已成为市场瞬息万变的趋势。因为各种规模的公司都可以通过单击几下立即访问复杂的基础架构和技术。在这里,云提供了强大的基础架构,使企业能够胜过现有系统。
二、 拟研究的主要内容(提纲)和预期目标
随着行业中数据量的爆炸性增长,大数据的概念越来越受到关注。 由于大数据的大,复杂和快速变化的性质,许多用于小数据的传统机器学习算法不再适用于大数据环境中的应用程序问题。 因此,在大数据环境下研究机器学习算法已成为学术界和业界的普遍关注。 本文主要讨论和总结用于处理大数据的机器学习算法的研究现状。 另外,由于并行处理是处理大数据的主要方法,因此我们介绍了一些并行算法,介绍了大数据环境中机器学习研究所面临的问题,最后介绍了机器学习的研究趋势,我们的目标就是研究数据量大的情况下算法和模型的关系,同时也会探讨大部分细分行业数据量不大不小的情况下算法的关系。
三、 拟采用的研究方法(思路、技术路线、可行性分析论证等)
1.视觉分析。大数据分析用户包括大数据分析专业人士和一般用户,但是大数据分析的最基本要求是视觉分析。视觉分析直观地介绍了大数据的特征,并像阅读照片的读者一样容易接受。 2.数据挖掘算法。大数据分析的理论中心是数据挖掘算法。不同的数据挖掘算法依赖于不同的数据类型和格式来更科学地表征数据本身。由于它们被全世界的统计学家所公认,因此各种统计方法(称为真值)可以深入到数据中并挖掘公认的值。另一方面是这些数据挖掘算法可以更快地处理大数据。如果该算法需要花费几年时间才能得出结论,那么大数据的价值是未知的。 3.预测分析。大数据分析的最后一个应用领域是预测分析,发现大数据功能,科学地建立模型以及通过模型吸收新数据以预测未来数据。 4.语义引擎。非结构化数据的多样化为数据分析提出了新的挑战。您需要一套工具来分析和调整数据。语义引擎必须设计有足够的人工智能,以主动从数据中提取信息。 5.数据质量和数据管理。大数据分析是数据质量和数据管理的组成部分。高质量的数据和有效的数据管理确保了分析结果在学术研究和商业应用中的可靠性和价值。大数据分析的基础是前五个方面。当然,如果您更深入地研究大数据分析,则还有更多特征,更深入,更专业的大数据分析方法。
四、 论文(设计)的工作进度安排
2020.03.18-2020.03.20 明确论文内容,进行相关论文资料的查找与翻译。2020.04.04-2020.04.27:撰写开题报告 。
2020.04.28-2020.04.30 :设计实验。
2020.05.01-2020.05.07 :开展实验。
2020.05.08-2020.05.15 :准备中期检查。
2020.05.16-2020.05.23:根据中期检查的问题,进一步完善实验2020.05.24-2020.05.28 :完成论文初稿。
2020.05.29-2020.06.26 :论文修改完善。
五、 参考文献(不少于5篇)
1 . 王伟,王珊,杜小勇,覃雄派,王会举.大数据分析——rdbms与mapreduce的竞争与共生 .计算机光盘软件与应用,2012.被引量:273.
2 . 喻国明. 大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2 012)的舆情模型构建.中国人民大学学报,2013.被引量:9. 3 . 李广建,化柏林.大数据分析与情报分析关系辨析.中国图书馆学报,2014.被引量:16.
4 . 王智,于戈,郭朝鹏,张一川,宋杰.大数据分析的分布式molap技术 .软件学报,2014.被引量:6.
5 . 王德文,孙志伟.电力用户侧大数据分析与并行负荷预测 .中国电机工程学报,2015.被引量:19.
6 . 江秀臣,杜修明,严英杰,盛戈皞,陈玉峰 ,郭志红.基于大数据分析的输变电设备状态数据异常检测方法 .中国电机工程学报,2015.被引量:8.
7 . 喻国明. 呼唤“社会最大公约数”:2012年社会舆情运行态势研究——基于百度热搜词的大 数据分析.编辑之友,2013.被引量:4.
六、指导教师意见
签字: 年 月 日
七、学院院长意见及签字
关于移动通信论文参考文献:
[1]谢显忠等,基于TDD的第四代移动通信技术[M].电子工业出版社,2005.
[2]解梅,移动通信技术及发展[J].电子科技大学学报,2003,02.
[3]宋文涛、罗汉文,移动通信[M].上海交通大学出版社,1996.
[4]何林娜,数字移动通信技术[M].机械工业出版社,2004.
[5]吕昌春,李林园.移动互联网产业链平台竞争与电信运营商增值业务发展策略研究[J].邮电设计技术,2012(11):16-20.
[6]张洁.影响中国移动通信产业发展竞争力的因素分析[J].经济视角(下),2011(01):52-53.
关于移动通信论文参考文献:
[1]张洁.影响中国移动通信产业发展竞争力的因素分析[J].经济视角(下),2011(01):52-53.
[2]吕昌春,李林园.移动互联网产业链平台竞争与电信运营商增值业务发展策略研究[J].邮电设计技术,2012(11):16-20.
[3]刘文婷.以运营商为主导的移动互联网业务商业模式研究[J].中国工业经济,2012(08):66-74.
[4]冯文高.我国移动通信产业的竞争均衡分析[J].现代经济信息.2009(16)
[5]张洁.影响中国移动通信产业发展竞争力的因素分析[J].经济视角(下).2011(01)
[6]马云泽.我国移动通信产业的市场结构与规制改革[J].经济问题.2009(01)
[7]张平王卫东陶小峰《WCDMA移动通信系统》人民邮电出版社
[8]詹炳根,《工程建设监理》,中国建设工业出版社,1997
[9]谢坚勋浅谈工程监理与项目管理接轨建设监理2004(2)
关于移动通信论文参考文献:
[1]赵刚.大数据:技术与应用实践指南[M].北京:电子工业出版社,2013.
[2]漆晨犧.电信企业大数据分析、应用及管理发展策略[J].电信科学,2013(3):12-16.
[3]刘洁,王哲.基于大数据的电信运营商业务精确运营平台的构建化[J].电信科学,2015,29(3):22-26.
[4]张俊.移动通信网络中大数据处理的关键技术研究[J].电信网技术,2014(4):10-12.
[5]康波,刘胜强.基于大数据分析的互联网业务用户体验管理[J].电信科学,2013,29(3):32-35.
[6]谢华.大数据在移动通信中的应用探讨[J].科技创业家,2014(1).
[7]夏磊.探巧大数据下的智能数据分析技术[J].科技创新导报,2014(10):21.
[8]侯优优,隋化严.网络优化中的大数据应用[J].互联网天地,2014(l):34-37.
[9]刘震,付俊辉,赵楠.基于移动通信数据的用户移动轨迹预测方法[J].计算机应用与软件,2015,30(2):10-13.
DSE杂志主编、哈尔滨工业大学李建中教授认为,现在大数据概念过热,几乎每个人都在谈大数据,但真正了解大数据的人并不多。所以,对于大数据到底是什么,应该怎样促进大数据的实际应用是学术界首先要探讨的问题。DSE杂志希望成为全世界大数据研究者的交流平台,让我国大数据方面优秀的研究成果能够发表在国际学术期刊上,推动我国的学术界走向世界。另外它也为全世界的企业界和学术界搭建了一个桥梁,促进大数据的研究成果向实际应用的转化。
在很多技术领域,中国的发展都是在跟随国外的脚步,但发展到今天,我们需要在一些领域做出创新,数据分析就是其中的一个突破口。现在国内很多领域、尤其银行领域用的数据分析软件都是国外产品。
对于此次合作,中新赛克CEO凌东胜说道,作为软件开发供应商,中新赛克希望通过这次合作能够把学术界的研究成果转化到产品的实际解决方案中去,提升产品的核心竞争力,开发出领先的数据分析软件,让国内企业在大数据领域真正做强、做大。在2015年,中新赛克将把信息安全领域和银行领域作为大数据产品的主要研发方向,努力推出优秀的产品解决方案。
对于大数据从学术研究到实际产品的应用,清华大学计算机系博士生导师、计算机系学术委员会主任周立柱教授认为还存在一些问题需要克服。首先就是要保证数据质量,目前数据噪声、数据不一等问题还有待通过研究来解决;其次是数据大了以后,如何利用合适的数据模型从复杂性的数据中筛选出目标数据;再次是数据分析得出的结果如何向用户解释,背后的基础是什么。