欢迎来到优发表网

购物车(0)

期刊大全 杂志订阅 SCI期刊 期刊投稿 出版社 公文范文 精品范文

数据分析方向范文

时间:2023-06-25 16:04:21

序论:在您撰写数据分析方向时,参考他人的优秀作品可以开阔视野,小编为您整理的7篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。

数据分析方向

第1篇

1.流量来源

从图中数据显示,该网站主要流量来源于外部链接,表明各种推广营销手段还是有一定效果的,而直接访问带来的流量却不太理想,说明该其用户忠诚度较低,需要继续加强。而搜索引擎流量的话其主要靠内容,而从该站数据看来,其内容还是比较欠缺,需要加强优化。。

2. 网站访问时段

从上图观察发现,我们可以分析出用户在上午9点-11点,下午14点-17点,这两个时段较为活跃,那么便可根据此进行推广,因为访客越是活跃,进行推广便更呕效果。同样的,在做竞价推广时,也可以此作为参考。

3. 搜索引擎分析

有统计数据可以发现,各个搜索引擎过来的流量有多少,而从该网站数据上看,该网站的主要访客来源于百度,竟然如此,该站就更加需要加强百度优化,更多的去迎合百度。

4.搜索词

通过对搜索词的查看,我们可以查看用户主要通过哪些词来到该网站,从而可根据此来对长尾关键词进行挖掘。同时我们可以发现用户是通过一些我们根本想不到的词来访问网站,通过这些词我也可作为研究用户搜索习惯的重要参考因素。

5.访问时长及跳出率

通过对访客的页面停留时间长短及跳出率,我们可以分析出用户的需求点,从而分析出哪些最终页,哪些是过度页。如此此我们就可以根据此来对页面进行优化,以及分析哪些栏目更应放在首页等。

6.浏览器访问比例

这个数据通常告诉我们应如何去设计网页,从图中可以看出浏览器中360与ie用户量比例较大。因此在我们对该网站页面进行设计或改版时,需要重点满足IE与360用户的需求,同时要保证网页在IE与360下的兼容性。

第2篇

关键词:大数据 统计专业 核心

中图分类号:G632 文献标识码:A 文章编号:1674-2117(2014)10-0008-02

1 大数据的统计涵义

通常来说,凡是数据量超过一定大小,导致常规软件无法在一个可接受的时间范围内完成对其进行抓取、管理和处理工作的数据即可称为大数据。业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征:数据体量巨大、数据类型繁多、价值密度低、处理速度快。

大数据潮流让我们获得了海量的数据,数据已经成为相关行业创造价值的重要资源。因此,许多IT企业和互联网企业都已将业务范围延伸至大数据产业,探索大数据驱动的业务模式。2012年,美国政府投资2亿美元启动的“大数据研究和发展计划”,更是将大数据的研究上升到国家战略层面。然而,大数据的真正意义不在于数据量的巨大,而在于对数据信息进行专业化的处理,核心是对数据进行分析。面对大数据,越来越多的领域都开始运用数学特别是统计学的工具,挖掘大数据中真正蕴藏的价值。正如西内启在《看穿一切数字的统计学》书中所指出的,“从数据中得出有意义的结果,关键在于控制和减少误差,得出因果关系,单纯收集数据并加以全部量化分析在很多情况下会得出谬误结果,”而科学的统计学方法是得出因果关系的最佳方法。

从统计学角度看,一方面,大数据具有类型繁多、结构复杂、体量巨大等特点,海量数据以分布式方式进行存储,特别是图片、音频、视频等非结构化数据的广泛存在,传统的统计方法和统计分析工具已无法满足大数据分析的需要,亟需统计方法的革新。另一方面,数据分析结果需要用生动、直观、容易被接受的方式展示给读者,可视化分析能够直观地呈现大数据的特点,阐释数据与数据之间的联系。因此,统计学要挺立大数据潮头,创新统计分析工具、可视化分析方法,以大数据的挖掘和应用为核心,将传统文本、图像的统计、分析向数据分析转变,以适应大数据时代的发展及其对统计学带来的挑战。

2 大数据时代统计学教育面临的挑战与应对

据互联网数据中心(Internet Data Center)预测,中国大数据技术与服务市场将会从2011年的7760万美元快速增长到2016年的6.16亿美元,而据业界专家估算,中国大数据市场的人才需求量至少为100万人,其中统计人才、技术更是捉襟见肘。传统数据收集和分析技术的知识结构已不能满足大数据时代对“数据科学家”的要求,多家企业在面对大数据发展时遭遇人才瓶颈。大数据相关人才供给不足将会成为影响大数据市场发展的一个重要因素。

当前,全世界范围内已有数百个高校开设了大数据分析专业。卡内基梅隆大学和新泽西州立大学在培养目标和课程设置上项目设置偏重于计算机方向。课程设置偏重统计学与运筹学(包括决策科学)的典型学校有田纳西大学和约克大学。2013年,北京航空航天大学与慧科教育合作开办了国内首个“大数据技术与应用”软件工程硕士项目研究生班,这是目前国内唯一一个培养大数据行业专业型人才的项目,但其培养目标、知识体系是面向计算机领域,而立足统计学基础的大数据分析人才培养项目,在国内可谓是凤毛麟角。

知者随事而制。高等院校统计学专业要通过有效利用和整合人才培养资源,承担大学人才培养的责任,驾驭大数据的浪潮,占领大数据发展人才培养的制高点,体现高等院校向社会、企业提供智力支撑,输送企业亟需的复合型、实用性大数据分析人才的载体作用,确保产业科学、持续、高速的发展。一是教育资源的整合,走在前列的首都经济贸易大学、北京大学、中国人民大学、中国科学院大学、中央财经大学五所应用统计专业硕士培养单位在北京成立了“中国大数据教育协同创新体”,在高校之间实现学科融合、优势互补、强强联合,通过共享优质资源平台、共同建立课程体系、共同建设案例资源库、联合搭建实践实训平台等多种形式,创新人才培养体制机制。二是高等院校教育资源与业界资源的整合,通过与国有超大型企业、互联网翘楚的协同培养,立足应用统计专业硕士教育,建立人才培养基地,进行协同创新,探索构建应用统计(大数据分析)专业硕士人才协同培养模式。以缓解当前大数据人才供需矛盾为目的,建立“校校协同、校企协同、院系协同”的大数据分析方向人才协同培养模式,最终实现协同培养“数据科学家”的目标。[5]

3 面向大数据分析方向的应用统计专业硕士培养模式的构建

本研究认为,可以将大数据分析及相关的案例教学模式融入应用统计专业硕士学位研究生的培养过程,进而打破统计学传统的以阐述统计理论、公式推导、数学计算为主的教学模式。以情境浸润为基础,为学生呈现统计学在大数据领域应用为核心的教学模式,可以培养学生对大数据的挖掘、整合、分析价值的能力,以期更好、更快地适应企业对数据分析师、数据科学家的需求。

3.1 科学构建课程体系,突出大数据分析特点

大数据具有强烈的行业特点,在充分借鉴国外大学成功经验的基础上,大数据分析专业硕士的课程设置,强化数据分析能力和数据挖掘能力,注重上述技术在金融等领域的应用。必修课在讲授统计基础理论(描述、多元、时序、空间、可视化等)课程的基础上,为增强学生的大规模分布式计算技能,引入主流的大数据计算平台,如Hadoop分布式平台、MapReduce并行编程算法。与此同时,为提高学生动手能力,构建数据模型思维,开设《大数据分析案例》等多门课程。选修课方面,考虑到学生二次开发的需要,设置大数据开发基础课程,如C++、Java等。为突出应用统计专业硕士侧重应用的特点,开设面向数据的编程语言,如R、SAS、Python等课程。这些课程模块的设置并非体现某一学科知识的纵深发展,而是将相关学科的知识融合,有利于突出大数据分析的特点。

3.2 创新教学培养模式,注重培用结合

以“编组”方式开展教学活动。授课教师和学生均采用团队编组模式,多名教师协同工作,共同完成一门课程的授课任务。打破原有学科思维、教材的束缚。采用导师指导与集体培养相结合的方式。教师不可照搬旧有的教学大纲、课程内容,要学习和熟悉大数据相关知识体系与技术新进展,充分结合大数据分析需求和实际案例,使课程内容紧贴实际需求,注重培养学生对模型的理解,对数据的想象力,真正实现学以致用、培用结合。

采取“订制化”培养模式,突出培养与应用相结合的特点,力争做到人、岗的高度匹配。“订制化”培养模式打破了目前应用统计专业硕士统一培养、与市场需求脱节的模式壁垒,教学实践以市场需求为导向,依照企业的岗位标准、用人要求,强调以岗位需求制定培养方案,更好地满足用人单位对大数据分析人才的需求。

3.3 开展校企协同培养,构建问题导向、项目牵引的实践教学模式

根据国务院学位委员会的规定,应用统计学专业硕士学位研究生教育的目的是培养具有良好的统计学背景,系统掌握数据采集、处理、分析和开发的知识与技能,具备熟练应用计算机处理和分析数据的能力,能够并适应行业或职业实际工作需要的应用型高层次人才。因此,要摒弃普遍存在的重理论轻实践、重知识轻技能的教学方式。

协同创新培养在实践教学中建立了以问题为导向,以项目为牵引的运作机制,强调实践教学内容的呈现方式要面向企业需求,让学生参与到企业的项目运行过程中,引导学生建立业务建模能力,培养学生的数据资源整合能力,激发学生参与项目的积极性和自觉性。学生不拘泥于学校的实验实训基地和各类实验室,在第二学年中安排一定时间走出校门,进入到企业的实际环境中,参与企业的项目组织、实施过程,在实践过程中提升自我认知能力,在实践过程应用知识和理论研究实际问题的能力,培养和锻炼数据资源整合能力、沟通协调能力、IT支撑能力、业务建模能力,真正实现面向能力培养的目的。指导教师方面,在案例教学和实习阶段引进业务素质高、项目经验丰富、对大数据发展有敏锐洞察力的企业高级数据分析人员,指导学生在实习实践中提出问题、建立模型、解决问题的能力。

4 结语

应用统计(大数据分析)专业硕士人才协同培养模式,是一项可持续发展的应用统计专业硕士人才培养的新模式,是专业硕士教学实践的创新举措,也是在全国率先建立起来的立足统计学,在大数据分析人才层面建立的校校协同、校企系统办学体。体现了面向能力培养、面向社会需求培养、面向人才价值培养的“三个面向”的培养目标,着重培养学生分析数据、处理数据、展示数据的能力,对于培养“高层次、实用性、复合型、国际化”大数据分析人才意义重大,同时也是顺应大数据技术革命的浪潮,必将对大数据等新兴技术产业的发展注入活力。

(首都经济贸易大学,北京 100070)

参考文献:

[1]刘军.Hodoop大数据处理[M].人民邮电出版社,2013.

[2]大数据的四个典型特征[N].中国电子报、电子信息产业网,2012(12).

[3]CCF大数据专家委员会.2014年大数据发展趋势预测[J].中国计算机学会通讯,2014(1):32-36.

第3篇

[关键词]新媒体营销;企业转型升级;市场营销模式

1引言

新媒体营销是随着互联网技术不断发展而衍生的重要产物,它是以移动平台为载体,以信息技术为桥梁而实现的企业网络市场竞争的过程。这种模式的出现意味着企业与现代科学技术的接轨,是企业智能化数据化发展的鲜明体现。企业在新媒体平台和技术的指导下,能够依靠各类先进技术,转变自身的发展方式。其中最为突出的应用便在于企业对数据分析的引进。

2分析数据,确立市场受众群体

企业要想在众多新媒体平台营销中脱颖而出,就必须掌握符合自身市场定位的消费群体,要让自身生产的产品能够有广泛的接受度,要取得属于自身独有的市场信任感和公信力。这也就意味着企业要主动出击,积极地吸引消费者群体的关注和重视。如果一个企业发展自身新媒体营销的方法,仅仅是通过水军或者是买来的粉丝,或者是通过转发抽奖等,那么这个企业只会在短时间内取得一定的爆发式关注,无法取得长远的市场利益,也没有办法真正的给消费者留下深刻的印象,自然也不能根据消费者的喜好和兴趣制订出针对性的市场营销方案。这就需要企业通过数据分析的方法来明确自身的受众群体。[1]首先,企业要用数据分析的方法,对自身已有的市场发展基础进行系统的分析和总结,整理出自身的市场定位和发展特点,包括品牌形象、竞争优势、产品性质等。在此基础上,大致地规划消费者的群体范围,制订相应的宣传方案和宣传规划,同时也要注意把握时间的限制,要尽可能地寻求时间和效益之间的平衡。在这一过程中,企业要按照消费者的点击喜好和频率,来制定有针对性的宣传模式,这样可以更为有效地吸引消费者的关注。其次,企业要重视用户之间的传播和转发,企业要在吸引一批粉丝的基础上适当地进行转发和抽奖活动,扩大自身的市场影响力。最后,企业也要在这一过程中精确自身的市场定位,要动态地观察宣传的成果和绩效,要寻找大众的认同感。这便要求企业要借助数据分析和检索的平台,搜索与自身宣传相关的信息确立关键词和重点语句,并分析大众对于自身的评价和看法,更好地改进营销中存在的缺陷和不足。同时要在此基础上,让自身的宣传内容更加量化和准确,更好地提升在用户之间的口碑。

3分析数据,确立市场营销载体

根据上文所述,企业在新媒体营销中所进行的宣传是离不开固定的平台和载体的,移动平台是企业信息和展现自身形象的基础与保障。因此,企业要十分重视自身新媒体营销工具的选择,要运用数据分析的方法精准地统筹和管理市场营销的信息,推动网络营销能够适应自身发展的特点和规律。同时,数据分析方法还可以把企业自身经营的特点与不同的新媒体平台进行融合,对比其结合后的实际效益和成果,同时也可以与事先的市场规划设计相比较,在此基础上选择最为合适的企业新媒体营销载体。[2]之所以运用数据分析的方法来选择企业新媒体营销载体,是因为现阶段网络企业的发展形式多种多样,不同的企业也有自身不同的市场定位和产品特点,彼此之间相互独立,但是也紧密联系。这也就意味着,各类企业在共同运用新媒体网络平台这一方法进行市场营销的同时,也要根据自身的发展特点来选择适合自己的宣传载体和工具,只有这样才可以促进宣传内容的有效传播。当下企业利用新媒体进行宣传的主要形式包括纪录片、文字和图像等,也可以是多种表现形式的结合。尽管在宣传方式上具有多样性,但是否能真正的起到吸引用户的作用还需要依靠用户的主观能动性。这就要求企业在选择好自身营销载体的基础上,利用后台运行接收数据信息的方法,分析用户点击频率最多的板块和内容,总结出现阶段自身市场发展应当跟随的主流趋势,以及分析当下营销平台运行的成果。例如当下的微博小程序,就是企业依靠文字推送或者视频的方式,与用户建立线上的交流和沟通,在此基础上根据用户的点击频率来制订出更有针对性的市场营销方案。

4分析数据,确立信息展示模式

现阶段,有许多企业建立了自身运营的自媒体平台,有相当一部分是需要用户下载相应的软件,并注册账号才可以获得相关的信息。用户在注册之后,便可以通过在移动端登录的方法来完成后续操作。[3]但也正是因为这种登录方法的存在,用户会获得比其他平台更多的市场信息。这就在一定程度上激发了用户的厌烦心理,有相当一部分用户会由于时间的限制,直接略过企业所的信息。同时,也有一部分企业将自身的信息运用网页链接或者是二维码的方式展现出来,用户必须要在登录网站的基础上再一次点开网页链接,这就会让用户觉得浏览信息是一件非常烦琐的事情。因此,企业要重视自身信息展现形式的转变,企业要尽可能地选择简洁明了的形式突出自身信息的重点,要让用户可以看到自身营销的优势和特点。企业可以用数据分析的方法,统计出用户容易接受的信息展现形式,并按照类别进行划分。当下,用户容易接纳的是企业图文并茂的信息展现形式,可以是图片和文字链接的结合,也可以是视频和文字链接的结合,或者是将链接安置在图片上。企业就可以根据用户的喜好,将自身内容展现的形式进行改革和优化,例如企业可以将市场经营的方向和产品的性能,利用形象化的图片展示出来。让用户可以一眼就看到自身的品牌特色,提高自身的吸引力。在这一过程中企业要意识到信息真实准确表达的重要性,企业可以在原有的基础上进行适当地渲染和润色,但是不能虚假信息,不能夸大其词,不能让用户接受错误且夸张的市场营销数据。

5分析数据,确定市场发展价值

企业运用数据分析的重点不仅是要打造更为针对性的市场营销方案,更是要在数据信息的分析过程中审视自身的市场经营价值,分析自身的发展建设前景,评估现阶段自身方案的质量和效益,并以此来为未来的长远发展打下坚定的基础。因此企业要用数据分析的方法,对自身新媒体运营平台进行阶段性和周期性的监督,分析现阶段自身在市场竞争中的地位。[4]监督的内容主要包括平台粉丝的浏览量和点击率、粉丝的转发量、粉丝总量的增减、除粉丝之外的市场其他用户点击率,以及现阶段市场营销的经济利润和收益等。这样就可以在很大程度上帮助企业确定自身营销平台选择的正确性,分析自身市场发展定位的准确性。

第4篇

为了进一步了解馆藏图书的利用情况,现从社科类、自科类及综合类的角度对2008年—2012年5年数据进行结构划分,其中社科类包含《中图法(第四版)》中的A-K类,自科类包含N-X类,综合类指Z类。综合类每年的购置量很少,此次在表2中体现,仅供参考,重点将社科与自科类图书进行分析。从馆藏册数方面,由表2的数据统计得知自科类图书占据主导地位,分别占到55%,54.5%,56%,54.5%,56.2%,这与图书馆每年制定的自科社科6:4的图书入藏比例基本相符,也表明了图书馆的馆藏结构符合学校以工为主的办学特色。流通比例是指图书的借阅量与总的借阅量的比例,可以从很多方面进行划分,时间段内读者对各类图书的整体需求比例,从类别结构划分流通比例就可以客观的反映出来。由表2的数据统计得知,2008年—2012年,社科类的流通比例每年都高于自科类,分别占到了56%,58%,60%,57%,66%。

入藏比例与流通比例的分析比对

取自科与社科的入藏比例和流通比例的差值Z,以数值0为分界点,分为正负两个区间,如果Z值落在同区间内,则表示馆藏图书与读者需求在整体上保持一致,反之,若Z值落在不同的区间,则表示馆藏图书与读者需求存在矛盾。计算公式Z=X-YX:入藏比例Y:流通比例如图1所示,图书馆5年内的Z值均分布于两个不同的区间,从而说明,入藏的图书与读者的需求存在出入,没有达到一致。那么,为了使图书更好的被利用,是应该继续按照图书馆原有的采购比例继续采购,还是要改变采购方向迎合读者的需求,就要进一步的了解利用率较高的几大类图书。

文献的利用率衰减对文献采购的影响

1图书利用率的分类排名

通过统计,借阅率排名前10位的有文学(I)、哲学(B)、艺术(J)、语言、文字(H)、社科总论(C)、历史、地理(K)、经济(F)、工业技术(T)、政治法律(D)、数理科学和化学(O)。以2008年入藏的中文图书作为统计对象,以2008年—2012年5年作为5个借阅时间段,前10位的借阅率统计结果如表3。表3的统计结果清晰表明,在每年的借阅率排名前10类中,社科类占到了80%,而自科类只占到了20%,社科类中文学(I)的借阅率更是高居榜首,文学类图书受到读者的欢迎,在其他各个高校中的借阅率排名亦是居高不下。社科类更是占据了借阅率排行的前6位。自科类排名中T大类遥遥领先,这是由于工业技术本身就涵盖了TB、TD、TM等众多类别,受众面较为广泛,但与社科类的图书利用率进行比较,自科类的图书利用率还是有一定的差距。一个图书情报机构是为某一个或几个专业研究、教育培训服务,还是为一般参考咨询或娱乐欣赏服务,这是设计藏书结构的基本出发点和目标[2]。西安理工大学属于理工院校,以工为主亦应该在图书馆馆藏结构中得以体现。

2文献利用率的衰减分析

文献可看作是一种信息,信息有其时效性,文献的价值也会随着时间的流逝而逐渐降低(特种文献除外)[3],图书的利用率也符合这种规律逐年衰减。这一点可从表3的各类图书的年利用率中清晰看到。文学(I)从91.19%降至47.70%,其它各类图书都有不同程度的降低。如果用U来表示图书利用率的衰减程度,那么U就应该等于同样的入藏图书大类在不同时间段内的借阅率之差。U的值越大,说明该类图书利用率的衰减程度大,利用价值损耗大,反之,说明该类图书的利用价值时间长,采购图书时应加以考虑。2008年入藏的图书,在2008年的借阅率与2012年的借阅率之差结果如图2所示。其中U值较小的为T类与O类,I类排在第4位。自科类的图书利用率虽然较低,但是,随着时间的推移,自科类的图书利用率衰减值小,所以利用价值可持续的周期比较长,可供读者的参考价值也较高。社科类的图书借阅率较高,但是时效性低,而且衰减值高,图2中显示,J类,H类,C类,F类的借阅率之差相当,而且数值较高,I类图书借阅率最高,但是属于非专业图书,应控制采购比例。2008年入藏的图书,5年之后,2012年的利用率排名前3位的分别为文学(I)47.70%、哲学(B)47.62%、工业技术(T)40.90%。T与O大类的借阅率排名分别从第8位与第10位上升为第3位与第6位。这说明自科类的图书保值期比社科类图书时间长,例如2008年购置的自科类《电子线路CADProtel99SE》一书,在2008年流通量为6次,2012年仍然流通量4次,而社科类《经济学的分析方法》一书,2008年的流通量为11次,在2012年就只流通了1次。

第5篇

关键词: 数据挖掘;数据仓库;相关分析

中图分类号:TP 311.3 文献标志码:A 文章编号:1672-8513(2011)03-0182-03

The Application of Correlation Analysis Algorithms in the Data Invites Chien

ZHANG Hanyun,DUAN Peng

(School of Mathematics and Computer Science,Yunnan University of Nationalities,Kunming 650031,China)

Abstract: The data warehouse was constructed by using the mass data of computer science majors’ scores generated during the past three years in thirteen classes of four grades, we analyze the corresponding degree of different courses in the database using corresponding analyzing techniques, and condense the attributes in database according to corresponding factors, An example is given to illustrate the application of the proposed method. The analysis introduced in the paper has provided a scientific basis for improving the teaching quality .Then it is prepare for the Association rules mined of different courses.

Key words: data mining;data warehouse; correlation analysis

相关分析法是在分析某个问题或指标时,将与该问题或指标相关的其他问题或指标进行对比,分析其相互关系或相关程度的一种分析方法,用少数几对综合变量来反映2组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.本文主要研究如何利用相关分析技术产生计算机专业课之间的相关系数,发现专业课程之间的相关度,对数据仓库中的数据进行约简[1].

1 相关分析

1.1 相关分析概述[2]

相关分析(Correlation Analysis)是研究随机变量之间的相关关系的一种统计方法.相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系.例如,教育投资与教育发展速度的关系、教师教学水平和学生的学习效果之间的关系等[3].

相关系数值为-1(完全负相关关系)~+1(完全正相关关系)之间,相关系数为0时,表示不存在相关关系.例:

正相关:学生的学习能力与学习成绩的关系;

负相关:教师的身体状况与缺勤率的关系;

零相关:教师的身高与教学能力的关系.

Pearson相关用于双变量正态分布的资料,其相关系数称为积矩相关系数(Coefficient of Product-Moment Correlation).进行相关分析时,我们一般会同时对2变量绘制散点图,以更直观地考察2变量之间的相互变化关系[4].

用Flag Significant Correlations 进行显著性检验,标出有显著性意义的相关系数,用一个星号“*”标记在α=0.05水平上有显著性意义的相关系数;用2个星号“**”标记在α=0.01水平上有显著性意义的相关系数[5].

1.2 相关分析的表示方法

进行相关分析的主要方法有图示法和计算法.图示法是通过绘制相关散点图来进行相关分析,计算法则是根据不同类型的数据,选择不同的计算方法求出相关系数来进行相关分析.

1.2.1 图示法

图示法的具体做法就是绘制相关散点图.相关散点图是观察2个变量之间关系的一种非常直观的方法.具体绘制的方法是:以横轴表示2个变量中的1个变量(作为自变量),以纵轴表示另一个变量(作为因变量).将2个变量之间相对应的变量值以坐标点的形式逐一标在直角坐标系中,通过点的分布形状和疏密程度来形象描述2个变量之间的相关关系.

相关散点图可以通过手工绘制而得到.但如果面对的变量值比较多,手工绘制的过程既费时,又不够精确.

1.2.2 计算法

相关系数也称为相关量,是用来描述变量之间变化方向和密切程度的数字特征量,一般用r表示.它的数值范围在-1到+1之间,它的正负号反映变量之间变化的方向;它的绝对值的大小反映变量之间关系的密切程度.

根据2个变量变化的密切程度,我们把相关关系分为完全相关、高度相关、中度相关、低度相关、零相关[6].

完全相关:│r│=1的相关;

高度相关或强相关:0.7≤│r│<1的相关;

中度相关:0.4≤│r│<0.7的相关;

低度相关或弱相关:│r│<0.4的相关.

1.3 Pearson相关

Pearson相关也称积差相关,积差相关也称积矩相关,是英国统计学家Rearson提出的一种计算直线相关的方法,因而又称为Rearson相关[6-7].

积差相关系数是2列成对观测值中各对观测值的标准分数乘积之和除以观测值对数所得之商[8].

1.3.1 Pearson相关的使用条件

1) 2个变量之间是线性关系,都是连续数据;

2) 2个变量的总体是正态分布,或接近正态的单峰分布;

3) 2个变量的观测值是成对的,每对观测值之间相互独立.

1.3.2 Pearson相关的计算公式

r=∑ZXZYn=∑X-Y-nσXσY.

式中,[ZK(]n表示数据的对数;σX,σY分别表示X和Y变量的样本标准差;[JP],分别表示X和Y变量的样本平均数.[ZK)]

对于学生成绩,其课程总体分布接近正态分布,满足Pearson相关的使用条件.在统计软件SPSS中,可以很方便地得出2变量之间的Pearson相关系数.[JP]

2 用相关分析法进行数据约简

2.1 学生成绩数据仓库的建立

数据选择上,主要选择了作者所在学校计算机专业3年来产生的专业基础课成绩,收集并整理了包含高等数学、C语言、数据结构和数据库系统原理的504条学生成绩数据.并将具体的成绩数据离散化为4个等级[9],即:

成绩>=80“A”; 70=

2.2 用相关分析法进行数据约简

对大规模数据库内容进行复杂的数据分析通常需要耗费大量的时间,这就常常使得这样分析变得不现实和不可行,尤其是需要交互式数据挖掘时.数据约简技术正是用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘,显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果基本相同[10].

数据约简并不是一个新的领域,现在已经提出了很多理论和方法,如:层次分析法,主成分分析法,随机抽样、免疫算法等.本研究根据实际需要,提出将相关分析方法应用于学生成绩的属性约简,即方便快捷又不失理论性.

在SPSS软件中,画出计算机专业课高等数学成绩的直方图,如图1.

用同样的方法,可以画出其他计算机专业课如C语言、数据结构等的直方图,可以看出,我们所建立的数据仓库中,学生计算机专业课程成绩基本上符合正态分布,满足Pearson相关的使用条件.

我们用双变量相关分析技术来分析相关课程之间的关联程度,并做出统计学推断,以最少的数据量反映最大的信息量,进而对数据库的属性进行约简.通过相关分析约简相关性较弱的属性,选择相关性强的属性而不直接利用数据库中的所有属性,从而减少大量冗余属性,以提高算法的效率.

在SPSS中进行课程间Pearson相关系数分析,得到计算机专业课程相关系数分析表如表1.

1:表中数值为4门课程进行相关分析得到的皮尔逊相关系数(Pearson Correlation)、相伴概率(Sig.(2-tailed))、样本个数(N).“*”标记在α=0.05水平上有显著性意义的相关系数;用两个星号“**”标记在α=0.01水平上有显著性意义的相关系数;

2:相伴概率用来判断求解线性关系的两变量之间是否有明显的线性关系.一般将这个Sig值与0.05相比较,如果它大于0.05,说明平均值在大于5%的几率上是相等的,而在小于95%的几率上不相等;如果它小于0.05,说明平均值在小于5%的几率上是相等的,而在大于95%的几率上不相等;如C语言与数据结构的Sig是0,此数值说明C语言与数据结构有显著的线性关系(因为Sig0.05,则说明两变量之间没有明显的线性关系).

由表1可以看出,同一门课程之间的Pearson相关系数为1,是完全相关关系.高等数学与C语言之间的Pearson相关系数为0.283,C语言与数据结构之间的Pearson相关系数为0.281,数据结构与数据库系统原理之间的Pearson相关系数为0.565,并且都有“*”标记,由此可以推断这4组课程之间有显著性意义的相关性.

3 结语

用相关分析技术对数据库进行约简,结果表明:线性代数、计算机导论及Pascal语言等多个因素相关性较弱;而C语言、数据结构、高等数学及数据库系统原理之间相关性较强,根据数据库约简原则,可将线性代数、计算机导论及Pascal语言等多个属性项从数据库中删除,以便提高数据挖掘效率.

参考文献:

[1]段西凌,甘开鹏.数据挖掘在人口普查信息系统中的应用[J].云南民族大学学报:自然科学版,2006,15(2):170-172.

[2]茆诗松.统计手册[M].北京:科学出版社,2003.

[3]TANG Zhaohui,MACLENNAN J.数据挖掘原理与应用[M]. 邝祝芳,焦贤龙,高升,译.北京:清华大学出版社,2007.

[4]王艳.数据挖掘中关联规则的探讨[J].成都信息工程学院学报,2004,19(2):173.

[5]张儒良,王翰虎.论数据挖掘优化教学管理[J].贵州民族学院学报,2004:133.

[6]赵辉.数据挖掘技术在学生成绩中分析中的应用[D].大连:大连海事大学,2007.

[7]王月敏.基于遗传算法的智能组卷系统研究[J].云南民族大学学报:自然科学版,2009,18(2):173-176.

[8]刘利锋,吴孟达. 关联规则的快速提取算法 [J].计算机工程.2008,34(5):63-65.

[9]李萍,段富.数据挖掘中数据约简的研究与应用[J].微计算机应用.2009,25(2):58-60.[ZK)]

[10][ZK(#]蔡勇,韩永国,刘自伟.数据挖掘技术在生源分析中的应用研究[J].计算机应用研究.2004,32(6):48-51.

收稿日期:2010-09-06.

第6篇

【关键词】大数据时代;运动训练科学;研究方向

引 言

运动训练科学的基本理论在1960至1970年基本形成,而研究则在1990年后正式开始。运动训练科学属于自然科学尤其是数学、化学、物理学、生物学、生理学等科学的产物。传统的运动训练科学遵循的是小数据研究理念与模式,然而,随着大数据的到来,小数据所展现出来的碎片化、分散化的特点不能完全的反映运动训练的模式,而大数据的分析存储、收集、使用数据的能力则在运动训练科学中逐渐应用。从训练人员身上的传感器、可穿戴设备以及场内的摄像头,再到服务人员手中的互联网以及终端设备,这其中大量的数据已经被收集起来,进而为以后的训练服务应用。不论是受伤运动员的训练还是教练的战术布置,都已经更加完整已经呈现在我们面前。可见在大数据时代的到来,为运动训练科学提供了重要的帮助。也为运动训练科学领域注入了新的生机与活力,推动其在科学化研究和运动训练现代化研究的发展,解决了在运动训练中许多遗留下来的问题,并且提供了新的研究方法思路,为运动训练科学开辟了一条新的研究道路。

一、大数据时代下运动训练科学的研究现状

在大数据的背景下,不论是运动员的恢复、预防或伤病,运动竞赛的过程,运动的训练的评价和效果,还是在竞赛过程中的战术分析与安排、运动员的选材、运动训练的时间等都与大数据有着紧密地联系。因此,在大数据时代下如何从众多的数据中寻找在运动训练中各种数据之间的联系,发现隐藏在运动之中的秘密,从而准确的为运动员或者在训练中提供有效的数据,帮助运动员到达合理的身体状态与竞赛成绩是对运动训练科学是极为必要的。如今大的数据的出现帮助在田径、游泳、篮球、足球、棒球、羽毛球等运动提供了一定的数据支持,为竞技赛场增添了一丝色彩,潜移默化的改变着运动训练科学领域的认知。

高尔夫球运动受到了各国运动员的喜爱,如今运动员也正是依靠数据分析来帮助他们在技术方面、训练方面更加全面,以此提高他们的训练成绩。例如Track Man技术是帮助运动员测量在每次击球后的击球方向、旋转速度、角度和力度等,然后通过数据软件等进行分析,帮助运动员了解自己的数据之后,更加针对性的进行训练。在上个世纪八十年代,美国男子职业篮球联赛就通过数据来展示运动员在场上的得分、进攻、掩护、挡拆、对抗数据,经过近四十年的数据积累,裁判可以根据比赛回放等来进行更好的判断,教练也可以利用数据对战术进行分析安排。截至目前为止,凡是聘请了数据分析师的球队俱乐部平均胜率都打到六成以上,而其他俱乐部仅有40%的胜率。在某些运动中运动员可以通过佩戴传感器来检测运动员的心率、垂直弹跳以及加速度等,从而保障运动员的生命安全,并且制定相应的训练,提高运动员的运动能力。

在德国,每一个足球场地四周布置传感器,甚至在每位球员的训练中也都放置了传感器来对运动员的运动变化细节进行分析。这些数据会在很短的时间内传到终端平台中,有由教练对这些运动员的运动轨迹、攻击范围以及运球的速率等相关信息进行战术分析;在网球的训练中,也有许多场地安置了传感器来捕捉网球的发球速率、旋转、发球角度等来判断球员的打法、击球特点。为战术的安排提供强有力的数据支持。而运动员的发球失误率以及非受迫性失误上升时,教练则会判断球员的体力或者心理状态不足。除了这两项运动外,乒乓球、羽毛球、棒球等都通过这种独特的数据方式来帮助球队以最小的经济利益获取成功,从而提高运动员的比赛成绩。

二、大数据背景下运动训练科学的研究方向

(一)明确运动科学训练研究对象

在大数据背景下要想确定运动训练科学的研究方向,首先要明确习研究对象。而我国近代运动训练科学是一种实体的研究,不依赖于其他事物外部复杂的实体。而在实体的研究中主要利用分解还原的研究方法,在数据的研究模式采用小数据研究。例如,在竞技体育中将各项竞技因素分开,单独训练体力或者技术,并且以弹跳力能力、心率肺活量、肌肉围度等指标来确定运动员的能力。然而,在运动训练科学的研究表明,实体是依附于关系的,关系甚至比实体更加重要。例如,核算与蛋白质相互作用产生生命,原子之间相互作用而产生分子。故而,对于训运动训练科学来说,关系要比实体更加重要。如果我们能在运动训练科学中找到这些信息之间的联系,就能准确的分析在运动训练中的技巧与对策,从而提高运动员运动训练的效率。

(二)明确运动训练研究视角

我国近现代运动科学训练都是单向度,如研究运动技术或者运动员的生理机能等。我国运动训练科学的研究方向首先要由单向度多向度发展,促进运动训练科学的有效进行。

结语

综上所述,大数据时代的到来为我国运动训练科学研究领域带来了新的机遇。我们需要迎接\动训练科学思维研究的变革,融入大数据的变迁,顺应时代的变化,明确运动科学训练研究的对象以及视角,提高运动员比赛能力和运动技巧,从而帮助运动员在比赛中取得良好的成绩。

作者简介:

白曼利(1981.3-),女,民族:汉族,籍贯:陕西咸阳,学历:研究生,专业:体育教育,研究方向:运动训练,职称:副教授。

杨江林(1982.1-),男,民族:汉族,籍贯:云南丽江,学历:大学本科,专业:体育教育,研究方向:运动训练,职称:副教授。

参考文献:

第7篇

[关键词]财政收入;GDP;面板数据

中图分类号:F01 文献标识码:A 文章编号:1006-0278(2013)02-024-01

在计量经济学中,我们一般应用的最多的数据分析是截面数据回归分析和时间序列分析,但截面数据分析和时间序列分析都有着一定的局限性。在实际经济研究当中,截面数据回归分析会遗漏掉数据的时间序列特征,例如在分析某年中国各省的GDP增长数据时,单纯的截面数据回归分析无法找出各省GDP随时间变化的特征,使得分析结果没有深度。而如果只用时间序列分析,则会遗漏掉不同截面间的联系与区别,例如在分析中国单个省市的GDP随时间增长的数据时,无法找出各个省市之间经济增长的联系与区别,因而同样无法满足我们的需要。而面板数据,是一种既包括了时间序列数据,也包括了相关截面数据的复合数据,是近年来用得较多的一种数据类型。

下面我们将基于2000-2009年中国各省GDP和财政收入的面板数据的实例来详细阐述面板数据的分析方法。

一、GDP与财政收入关系的经济学模型

财政收入是保证国家有效运转的经济基础,在一国经济建设中发挥着重要作用。随着中国经济发展速度的日益加快,财政收入不断扩大,而扩大的财政收入又以政府支出来调节和推动国民经济发展。正确认识财政收入与经济增长之间的长期关系,把握财政收入与经济增长之间的相互影响,发挥财政收入对经济发展的调节和促进功能,对于完善财税政策,深化财税体制改革,实现财政与经济之间的良性互动,具有重要的现实意义。文章就将从中国各省的面板数据出发研究,中国不同地域间财政收入和GDP之间的关系。

二、实证分析

(一)单位根检验

Eviews有两种单位根检验方法,一种在相同根的假设下的检验,包括LLC、Breintung、Hadri。另一种则是在不同根下的假设前提下,包括IPS,ADF-Fisher和PP-Fisher5。检验结果表明所有检验都拒绝原假设,因此序列GDP和CZSR均为一个2阶单整序列。

(二)协整检验

如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。

在最终的结果中,Pedroni方法中除了rho-Statistic、PP-Statistic项目外都拒绝GDP和CZSR不存在协整关系的原假设,同样Kao和Johansen检验方法也都拒绝原假设,因此,上述检验结果表明,我国各省2000-20009年的GDP和财政收入面板数据间存在着协整关系。既然通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的,因此可以在此基础上直接对进行回归分析,此时假设方程的回归结果是较精确的。

三、建立模型

混合模型:如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。

我们根据混合模型的回归结果,得到财政收入和GDP之间的回归方程为:

CZSR=227.3123+0.103224*GDP

(26.47637)(0.002839)

R2=0.810995 F=1321.587

显然从模型的回归结构来看,R2的值达到了0.81,有了比较好的回归解释力,同时,GDP的回归系数为0.103224,表明各省的财政收入平均占到了国民收入的10.3%左右。

变系数模型:显然,在中国各省之间由于处在不同的地区,因而拥有不同的区位优势,那么各省的发展水平显然就不一样。正是由于这种不同的地方政策、管理水平、文化差异等会导致经济变量间出现一些关联性的变化,此时在进行模型回归的时候,我们就有必要考虑变系数模型。

在回归结果中,R2的值达到了0.97,比混合模型拥有更好的回归解释力,而在变系数模型回归结果中,GDP的回归系数大于0.5的只有、青海、宁夏三个省份,也就是说这三个省份的财政收入占到了GDP的50%以上,他们同处于经济并不是很发达的西部地区,由此可以看出,处在经济发达地区的财政收入占GDP的比重要低,而不发达地区则要高。

四、结论

通过以上的分析检验,我们发现针对于中国财政收入和GDP的面板数据,我们应建立起变系数模型,并通过模型分析,我们可以得出这样的结论,中国各省间由于存在着地域经济发展水平不同、管理水平不同以及国家的相关政策等诸多不同,造成了各省之间在财政收入以及国民收入上面存在着一定的差异。而回归结果也告诉我们,我国西部地区的财政收入占GDP的比例要明显高于东部地区,地区发展落后地区的财政收入占GDP的比例也要明显高于东部地区。因此,这为我们改善我国落后地区的经济发展提供了一定的新思路,就是对一地区的税收征收可以适当放缓,而将GDP中以前政府占用的部分归还于民众和企业,因为,按照发达地区的经验表明,财政收入所占比重过高,经济发展的活力或者就不会很高,对于进一步刺激财政收入的增加也没有任何帮助。因此,我们应该适度降低财政收入占GDP的比重,从而增加经济活力,使西部地区以及落后地区及早的跟上东部发达地区的发展步伐,从而消除我国经济发展的地域不平衡。

参考文献:

[1]谢识予,朱洪鑫.高级计量经济学[M].复旦大学出版社,2005.

[2]张晓峒.Eviews使用指南(第二版)[M].南开大学出版社,2004.