时间:2023-02-27 11:18:55
序论:在您撰写数据挖掘技术应用时,参考他人的优秀作品可以开阔视野,小编为您整理的7篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。
关键词:数据挖掘;数据集;数据挖掘算法
0 引言
随着信息科技的进步以及电子化时代的到来,现代信息社会中数据和数据库呈现爆炸式增长。面对浩瀚的数据海洋,如何从这些庞大的数据中找出它们之间存在的“潜伏”的关系和规则,进而根据这些关系和规则预测未来的发展趋势,已经成为二十一世纪探索的热点问题。
数据挖掘(Data Mining)技术的诞生,为解决这一问题提供了可以参考的方法,是开发信息资源的一种新的数据处理技术。它不仅能对过去的数据进行查询,而且能够找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地解决决策、预测等问题。
1 数据挖掘概述
数据挖掘就是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。数据挖掘的目的是为了从这些数据中抽取一些有价值的知识或信息,提高信息利用率。
数据挖掘主要有以下对象:
(1)关系型数据库、事务型数据库、面向对象的数据库;
(2)数据仓库/多维数据库;
(3)空间数据(如地图信息);
(4)工程数据(如建筑、集成电路的信息);
(5)文本和多媒体数据(如文本、图象、音频、视频数据);
(6)时间相关的数据(如历史数据或股票交换数据);
(7)万维网(如半结构化的HTML,结构化的XML以及其他网络信息)。
数据挖掘的步骤一般会因不同的实际应用情况而有所变化,其过程就是用一定的数据挖掘算法从给定的数据库中提取模型,以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤,是一个需要经过反复的多次处理的过程。图1显示的是数据挖掘过程,主要由以下步骤组成:
(1)数据清理(消除噪音或不一致数据);
(2)数据集成(多种数据源可以组合在一起);
(3)数据选择(从数据库中提取与分析任务相关的数据);
(4)数据变换(数据变换或统一成适合挖掘的形式;如通过汇总或聚集操作);
(5)数据挖掘(基本步骤,使用智能方法提取数据模式);
(6)模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式);
(7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。
例如,应用数据挖掘算法中聚类分析的方法,可以在城市规划的过程中,根据类型、价格、地理位置等来划分不同类型的住宅。具体使用哪种数据挖掘算法,要根据具体情况和应用要求而定。一种数据挖掘算法可能在一种情况下适用,而在另一种情况下就不适用。在特定的应用环境下,应找出最适用的数据挖掘算法,并加以实施。
3 数据挖掘的应用
3.1 数据挖掘在零售业中的应用
由于零售业便于搜集大量的销售数据、顾客购物记录、货物运送、消费模式和服务记录等特点,使其成为数据挖掘的主要应用领域。
零售商们采用数据仓库使他们有更好的机会运用数据挖掘技术。通过数据挖掘,零售商们可以了解销售全局、对商品分组布局、降低库存成本、分析销售市场趋势,从而更加有效地对商品进行促销。大型的零售连锁店和杂货店用大量的“信息丰富” 的销售数据,通过数据挖掘揭示一些没有发现的“隐藏关系”,其中最著名的啤酒和尿布的故事即是数据挖掘在零售业中典型的应用。
3.2 数据挖掘在体育竞技中的应用
先进信息技术的运用是美国NBA职篮联盟成功的众多因素中非常重要的一个。例如,魔术队教练利用IBM公司开发的数据挖掘应用软件Advanced Scout,对不同的队员布阵时的相对优势进行了系统的分析,并根据分析结果取得了对迈阿密热队4连胜的战绩。
3.3 数据挖掘在企业中的应用
数据挖掘在企业信息处理中的应用是一个将信息转化为企业商业知识的过程。它主要用于企业的客户关系管理、市场分析、营销策略和趋势预测等方面。
数据挖掘技术已经广泛应用在美国银行和金融领域中。例如用数据挖掘工具Marksman可以分析消费者的赊账卡、家庭贷款、投资产品以及储蓄等信息,并对客户进行分类,从而预测何时哪类产品最适合哪类客户,因而被美国Firstar等银行使用。此外,近年来数据挖掘技术在信用记分的研究和应用方面也取得了很大的进步。银行利用Credit Scoring技术对客户的一些信息(如基本资料、资产以及以往信用等)进行分析、评估,做出最有利的决定。
数据挖掘在电信行业中的应用也很广泛。它可以帮助电信企业制定合理的电话收费和服务标准、针对特别的客户群的优惠政策、防止费用欺诈等。
3.4 数据挖掘在科学探索中的应用
随着数据挖掘技术的不断发展和完善,已经逐步应用到尖端科学的探索中。数据挖掘技术在生物学中的应用主要集中于分子生物学特别是基因工程的研究上。通过用计算生物分子系列分析方法,尤其是基因数据库搜索技术已在基因研究上做出了很多重大发现。
SKICAT(Sky Image Cataloging and Analysis Tool)是天文学上一个非常著名的系统。该系统使用数据挖掘算法中的决策树方法构造分星体类器对星体进行分类,结果使得能分辨的星体与以前的方法相比,在亮度上要低一个数量级之多,并且在效率上这种方法比以往的方法高40倍以上。
3.5 数据挖掘在信息安全中的应用
利用数据挖掘作为入侵检测的数据分析技术,把“潜伏”的安全信息从海量的安全事件数据中提取出来,抽象出有利于进行判断和比较的与安全相关的普遍特征,进而发现不确定的入侵行为,并作出判断、决策(如图3)。相对于传统的入侵检测分析技术,数据挖掘具有良好的自适应性、误警率低且能减轻数据过载,大大提高了检测和响应的效率和速度。
图3 数据挖掘方法的入侵检测系统流程图数据挖掘这一新兴技术至今已经在商业、银行、金融、制造业、互联网络、教育、科学研究等领域广泛应用,并且给我们的社会和生活带来了极大的改观。
参考文献
[1]Margaret H.Dunham: DATA MINING Introductory and Advanced Topics[M].北京:清华大学出版社,2003.
[2]Mehmed Kantardzic: DATA MINING Concepts,Models,Methods,and Algorithms[M].北京:清华大学出版社,2003.
[3]梁循.数据挖掘算法与应用[M].北京:北京大学出版社,2006.
数据挖掘(DataMining,DM),是随着数据库和人工智能发展起来的新兴的信息处理技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。
2、数据挖掘技术
2.1关联规则方法
关联规则是一种简单,实用的分析规则,描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,所挖掘出的关联规则量往往非常巨大,但是。并不是所有通过关联得到的属性之间的关系都有实际应用价值,对这些关联规则进行有效的评价。筛选出用户真正感兴趣的。有意义的关联规则尤为重要。
2.2分类和聚类方法
分类就是假定数据库中的每个对象属于一个预先给定的类。从而将数据库中的数据分配到给定的类中。而聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异。分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价。
2.3数据统计方法
使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取有关的知识。传统的统计学为数据挖掘提供了许多判别和回归分析方法。贝叶斯推理、回归分析、方差分析等技术是许多挖掘应用中有力的工具之一。
2.4神经网络方法
神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。这些优点使得神经元网络非常适合解决数据挖掘的问题。因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类;用于分类、预测和模式识别的前馈式神经网络模型;用于联想记忆和优化计算的反馈式神经网络模型;用于聚类的自组织映射方法。新晨
2.5决策树方法
决策树学习是一种通过逼近离散值日标函数的方法,把实例从根结点排列到某个叶子结点来分类实例。叶子结点即为实例所属的分类,利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段。建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分枝子集中,重复建立树的下层结点和分支的过程,即可建立决策树。
关键词:数据挖掘;用户偏好;考试系统;入侵检测
中图法分类号:TP274文献标识码:A文章编号:1009-3044(2010)22-6231-02
Survey on Data Mining Technology
WANG Wen
(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)
Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.
Key words: data mining; user preference; examination system; intrusion detection system
随着时代的发展,计算机科学在以飞快的速度前进着。在计算机科学的众多领域中,人工智能是最富有挑战性和创造性的一个领域。近几十年来,随着人工智能技术的日渐成熟,人们对人工智能的研究更加深入,对人工智能更加重视。科学界对于人工智能的重要性也已形成共识。
自进入21世纪以来,电子数据获取与计算机技术方面的不断发展以及网络的广泛普及与应用,人们日常生活中接收的数据和信息较以往正以飞快的速度增加,因而形成了独特的知识爆炸时代。就在最近几十年很多超大型数据库的产生使得整个社会发生着天翻地覆的变化,遍及银行存款、超级市场销售、粒子物理、天文学、化学、医学以及政府统计等领域。在这个数字化、信息化时代,这么大规模的数据库以及以后可能诞生的更大规模的数据库的数据管理问题将会是以后对数据处理的一个重要关注点。众多科技工作者共同关注的焦点集中在了如何从这些大型数据库中发现有用的、信息、模式以及如何实现有效的数据处理方法。因而“数据挖掘”(Data Mining) 的新领域逐渐走进了人们的事业,并且在人们的关注和不断研究下飞速发展,这是一个与统计学、人工智能、模式识别、机器学习、数据库技术以及高性能并行计算等领域都有很大相关的新学科,正是计算机学科的一个研究重点。
1 数据挖掘的一般过程
数据挖掘一般分为如下四个步骤(图1)。
1.1 数据预处理
收集和净化来自各种数据源或数据仓库的信息,并加以存储, 一般存于数据仓库中。
1.2 模型搜索
利用数据挖掘在数据库中匹配模型,这个搜索过程可以由系统自动执行,自下而上搜索原始数据以发现它们之间的某种联系;也可以进行用户交互,由分析人员发问,自顶向下寻找以验证假设的正确性。一个问题的搜索过程可能用到许多模型,如神经网络、基于规则的系统(决策树)、机器学习、基于实例的推理等。
1.3 评价输出结果
一般来说,数据挖掘的搜索过程需要反复多次,当分析人员评价输出结果后,它们可能会形成一些新的问题,或者要求对某一方面作更精细的查询,通过反复的搜索过程即可满足分析人员的这种需求。
1.4 生成报告
知识的发现过程可以由数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示等几个步骤组成。数据挖掘可以与用户或知识库交互,把用户关心的模式提交给广大用户,或作为新的知识存放在知识库中。
2 数据挖掘应用
2.1 数据挖掘在实现网站用户偏好度的应用
数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。使数据能够被更加高效的利用,对无用的数据加以摒弃,是数据挖掘技术最主要的实现形式,也是其最重要的应用方式。传统的数据库中的数据相对于Web的数据而言,其结构性很强,是完全结构化的数据,而半结构化则是Web上的数据最大特点。因而,面向单个数据仓库的数据挖掘较之面向Web的数据挖掘比要简单许多。据统计,网站上的绝大部分内容对绝大部分用户来说是无用的信息。事实是对于某个特定用户来说,其关心的内容仅是网站上极小部分的内容,而网站上提供的更多的内容对于这个用户来说是其不感兴趣的,并且过多的信息往往会掩盖有用的信息,使得用户的查询效率降低,并且对于网站也不是一件利事。
对于Web数据挖掘技术而言,半结构化数据源模型和半结构化数据模型的查询与集成问题是应当首要解决的问题。解决Web上的异构数据的集成与查询问题,有一个模型来清晰地描述Web上的数据是很必要的。因此,针对数据半结构化的Web数据的特点,寻找一个半结构化的数据模型至关重要。并且除此定义一个半结构化数据模型之外,一种半结构化模型抽取技术(自动地从现有数据中抽取半结构化模型的技术)也是应当提出的。因而半结构化模型和半结构化数据模型抽取技术是面向Web的数据挖掘实现的重要前提。
用户浏览网站上的内容时,他会被很的多因素影响,网页的外观,信息标题,网页链接以及个人的兴趣和习惯等等。我们可以设定合理的假设,建立他们之间的模型,利用以上提到的方法解决用户偏好度的问题。
2.2 数据挖掘在在线考试系统方面的应用
数据挖掘在在线考试系统方面的应用最主要体现在题库的构建,下面分别介绍题库的构建中数据挖掘的应用情况。
在设计数据库方面,数据库主要由题库、答案库和答案关键字库构成,题型库又涵括科目、题号、题型、题目、难度、分值等字段;答案库中包含科目、题号、分值、答案以及在同一题中有不同答案时应提供的不同答案序号等字段;答案关键字库中有题号、答案序号、权重和答案关键字。此后在将答案录入答案库。对于客观题而言,仅仅需要录入唯一的答案;但对于主观题而言,则需要尽量给出多个参考答案并将每个答案的关键字及其所对应的权值、答案序号输入答案关键字库。
通常有两类数据挖掘方法:①统计型,应用概率分析、相关性、聚类分析和判别分析等技术得以实现;②通过人工智能中的机器学习,经过训练以及学习输入大量的样品集,以得出需要的模式或参数。由于每一种方法都根据其特点都有其优势以及相应的引用领域,最后结果的质量和效果将受到数据挖掘技术选择的影响,采用多种技术结合的方法,其各自的优势可以达到互补的要求,从而实现最佳配置。下面介绍了两种数据挖掘方法: ①决策树算法:为每个问题的答案构造一个二叉树,每个分支或者是一个新的决策点,或者是一个叶子节点。在沿着决策树从上到下的遍历过程中,对每个问题的不同回答导致不同的分支,最后到达一个叶子节点,每个叶子节点都会对应确定的权值,通过对权值的计算判定得分;②模糊论方法:利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。由于主观题答案很灵活,答案不可能完全匹配,采用此方法将考生答案与答案库中的答案进行对照,以确定答案的正确度,从而更客观准确地评定主观题分数。
2.3 数据挖掘在网络入侵检测系统方面的应用
入侵检测就是通过运用一些分析方法对从各种渠道获得的反映网络状况和网络行为的数据进行分析、提炼,再根据分析结果对这些数据进行评价,从而能够识别出正常和异常的数据或者对潜在的新型入侵做出预测,以保证网络的安全运行。
基于分布式数据挖掘的入侵检测系统要对一个网段上的信息进行全面而细致的监测,同时在网络上多个点进行数据采集,如网关和特别需要保护的服务器等。整个系统构成分为本地分类器、规则学习模块和集中分类器三块基本构件。本地分类器负责对从网络上各个点采集到的数据通过预处理模块去除掉无效数据,并将原始数据处理成为以后进行数据挖掘算法可识别的格式,以实现对数据的初步检测和处理。本地分类器有2个输出:一个输出为分类数据,用于提交给规则学习模块,另外一个为数据摘要,用于提交给集中分类器。规则学习模块负责对标记过的分类数据进行深层次的数据挖掘,从而学习到新的知识。学习到的知识被直接录入到规则库中,这样保证了规则库可以根据网上的变化可以随时达到更新的需求。另外一种方式是通过规则学习模块实现人工训练系统,从而实现升级规则库的需求。最后将分布式数据挖掘的结果形成数据摘要发送给集中分类器,由集中分类器对各点数据摘要进行汇集,从而做出综合判断,达到有效地检测协同攻击的效果,最后将检测结果提交给决策模块。
3 结束语
数据挖掘技术是人工智能学科的一个重要分支,也是现代计算机科学的一个研究重点。现在基于数据挖掘技术的科研可以说是硕果累累,自从人工智能这个概念被提出来之后,其发展一直是计算机学科的热门而且其分支广而泛,都在不同的领域发挥着十分重要的作用。相信在计算机研究人员的不断努力下数据挖掘会在更多的方面服务人们,并且期待着新的理论的提出。
参考文献:
[1] 何克抗.建立题库的理论[M].长沙:国防科技大学出版社,1995.
[2] 刘波,段丽艳.一个基于Internet的通用题库系统的设计与实现[J].华南师范大学学报:自然科学版,2000(1):39-44.
[3] 王实,高文.数据挖掘中的聚类方法[J].计算机科学,2000,27(4):42-45.
关键词:数据挖掘 分类规则 算法
中图分类号:TP393 文献标识码:A
一、数据挖掘在市场营销的应用
数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。
通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。
就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面,即扩展经典关联规则能够解决问题的范围,改善经典关联规则挖掘算法效率和规则兴趣性。
二、入侵检测中数据挖掘技术的引入
入侵检测技术是对(网络)系统的运行状态进行监视,发现各种攻击企图、攻击行为或者攻击结果,以保证系统资源的机密性、完整性与可用性。
根据数据分析方法(也就是检测方法)的不同,我们可以将入侵检测系统分为两类:(1)误用检测(Misuse? Detection)。又称为基于特征的检测,它是根据已知的攻击行为建立一个特征库,然后去匹配已发生的动作,如果一致则表明它是一个入侵行为。(2)异常检测(Anomaly Detection)。又称为基于行为的检测,它是建立一个正常的特征库,根据使用者的行为或资源使用状况来判断是否入侵。
将这两种分析方法结合起来,可以获得更好的性能。异常检测可以使系统检测新的、未知的攻击或其他情况;误用检测通过防止耐心的攻击者逐步改变行为模式使得异常检测器将攻击行为认为是合法的,从而保护异常检测的完整性。
三、算法在入侵检测中的具体使用
(一)基于误用的检测型。
首先从网络或是主机上获取原始二进制的数据文件,再把这些数据进行处理,转换成ASCII码表示的数据分组形式。再经过预处理模块将这些网络数据表示成连接记录的形式,每个连接记录都是由选定的特征属性表示的。再进行完上面的工作后,对上述的由特征属性组成的模式记录进行处理,总结出其中的统计特征,包括在一时间段内与目标主机相同的连接记录的次数、发生SYN错误的连接百分比、目标端口相同的连接所占的百分比等等一系列的统计特征。最后,就可以进行下面的检测分析工作,利用分类算法,比如RIPPER 、C4.5等建立分类模型。只有这样才能建立一个实用性较强、效果更好的分类模型。
(二)基于异常的入侵模型。
异常检测的主要工作就是通过构造正常活动集合,然后利用得到的一组观察数值的偏离程度来判断用户行为的变化,以此来觉得是否属于入侵的一种检测技术。异常检测的优点在于它具有检测未知攻击模式的能力,不论攻击者采用什么样的攻击策略,异常检测模型依然可以通过检测它与已知模式集合之间的差异来判断用户的行为是否异常。
在异常检测中主要用到的两个算法就是模式比较和聚类算法:(1)模式比较。在模式比较算法中首先通过关联规则和序列规则建立正常的行为模式,然后通过模式比较算法来区别正常行为和入侵行为。(2)聚类算法。聚类分析的基本思想主要源于入侵与正常模式上的不同及正常行为数目应远大于入侵行为数目的条件,因此能够将数据集划分为不同的类别,由此分辨出正常和异常行为来检测入侵。数据挖掘中常用的聚类算法有K-means、模糊聚类、遗传聚类等。基于聚类的入侵检测是一种无监督的异常检测算法,通过对未标识数据进行训练来检测入侵。该方法不需要手工或其他的分类,也不需要进行训练。因此呢功能发现新型的和未知的入侵类型。
四、结论
入侵检测中数据挖掘技术方面的研究已经有很多,发表的论文也已经有好多,但是应用难点在于如何根据具体应用的要求,从用于安全的先验知识出发,提取出可以有效反映系统特性的属性,并应用合适的算法进行数据挖掘。另一技术难点在于如何将数据挖掘结果自动应用到实际IDS中。
入侵检测采用的技术有多种类型,其中基于数据挖掘技术的入侵检测技术成为当前入侵检测技术发展的一个热点,但数据挖掘还处于发展时期,因此有必要对它进行更深入的研究。
(作者单位:湖北工业大学 计算机学院)
参考文献:
[1]. 范明,孟小峰.数据挖掘――概念与技术.机械工业出版社,2001。
关键词:数据挖掘;技术;神经网络技术
1 数据挖掘技术的方法
数据挖掘技术的方法主要分为统计、聚类和遗传分析[1]。统计方法可以满足数据库处理分析,包括:有线、非线、回归等多项统计方法;聚类方法应用于数据挖掘的内部处理,梳理内部数据的关系,基于聚类方法的存在,数据挖掘技术可以满足经济、模拟等多项数据领域的需求;遗传分析是数据挖掘方法的重点,以生物进化为导向,将重组、变异导入到数据库内,推进数据的后续发展,将后续模拟的数据,应用在现代数据库的某个部分,发挥同样作用,遗传算法高度模拟生物进化的方式,结合繁殖、基因、突变、重组的概念,引入新数据,促使数据库中新个体的形成,所以数据挖掘中的遗传算法,既可以作为数据分析的方法,也可以体现预算和评估的特点。
2 数据挖掘的技术支持
2.1 神经网络技术
神经网络主要以数学模型为主,重点针对复杂数据,快速完成数据抽取。神经网络技术处理的能力,可以超出计算机的分析水平,保障输入神经网络中的数据属于数值型,即可快速导出趋势性变化的数据。神经网络技术通过模拟大脑的神经元结构,利用MP,实现非线性规划,根据数据信息的特性,决定信息的存储位置,实现自主处理。神经网络技术在数据挖掘中,不仅可以实现数据的快速分类,还可以对数据进行模拟预测,促使数据挖掘处于优化的状态,完成难度聚类。神经网络技术的代表为RBF和BP。
2.2 决策树技术
此技术以模拟离散函数为主,借助树木模型,对实际案例进行综合分类处理。决策树的叶子,代表不同结点,而结点则是组成实例不同属性的测试,未来枝叶的分支,表示可能覆盖的属性预测[2]。决策树在根部向枝叶推进的过程中,蕴含丰富的数据挖掘,目的是得出有价值的属性信息,所以决策树理论支持数据挖掘的分析和分类,对相同属性的数据进行归类存储,进而挖掘数据分类中遵循的规则。
3 数据挖掘技术的应用领域
3.1 通信服务行业
在数据挖掘技术的带动和参与下,通信服务行业逐渐趋向于“三网融合”,即:电信、互联和电视,势必涉及诸多数据运营,数据挖掘技术可以针对三网状态,实行模式分析,挖掘商业潜能。例如:数据挖掘技术可以对通信数据进行分析,得出通信系统实时运行的参数和状态,以聚类的方式,归类系统数据,还可直接分析用户的实际行为,拓宽业务途径,同时发现发展机遇,提升通信服务行业的社会效益。
3.2 高校管理系统
数据挖掘技术在高校中的应用较为明显,例如:学生信息管理系统、教务评价系统、成绩查询系统、选课系统等,都可体现数据挖掘技术的优点。高校学生数量较多,通过数据挖掘技术,可以为学生提供一体化服务,学生在入学之际,即可将信息录入在管理系统内,整个在校期间,都可通过管理系统,查询个人信息,管理者也可以根据管理系统,快速调取学生信息,如:图书借阅、饭卡充值等,随时关注学生的信息动态[3]。高校在数据管理方面,已经实现多系统的融合发展,在数据挖掘技术的支持下,将不同功能的数据系统,兼容于统一系统,不论是学生,还是教务人员,利用独立账号、密码,都可实现个人信息管理或查询,对数据挖掘技术提供更高的发展要求。
3.3 医学领域
医学领域不仅涉及大量的信息数据,而且数据的编排、汇总非常复杂,大量数据同时出现的过程中,几乎不会出现相同数据,因此,医学领域的数据管理,具备一定难度。数据挖掘技术成功应用于医院数据管理中,特别是在病历管理、医药信息管理方面,例如:数据挖掘技术可以整合医药信息,将医药信息存储于数据库系统内,医务人员可以通过检索的方式,在管理系统内,迅速获得所需信息,避免信息筛选错误,提高信息识别的能力。由此,医务人员在信息管理和校对方面,提高操作效率,确保数据挖掘的质量。
3.4 金融行业
金融行业中的数据分类比较明确,如:信贷数据、储蓄数据等,需对数据采取合理的分配和管理。数据挖掘技术在金融行业中,为数据管理提供可靠的空间,成为管理金融数据的最佳方式[4]。数据挖掘技术具备独立分析的能力,可以在数据库中,设置多维参考点,对不同类型的数据实行严格区分,根据数据的异同性质,实行准确处理,发挥数据挖掘的优势,维持金融数据的运行。数据挖掘技术还可以根据金融数据的动态变化,有效发现影响金融活动的不良因素,防止金融行业出现数据漏洞,造成管理弊端。
综上所述,随着数据挖掘技术的发展,其在行业领域中的应用越来越广泛,为数据运行提供强大的技术支持。数据挖掘技术可以迅速获取有效信息,体现准确识别的能力,改善数据运行,因此,数据挖掘技术成为行业发展与进步的重要途径,不仅提高信息处理的能力,还可以保障信息处理的效率和价值,同时提高行业信息技术水平。
[参考文献]
[1]罗斌.数据挖掘研究进展[J].中国水运,2012(07):90-92.
[2]张昀.数据挖掘技术研究[J].软件导刊,2012(09):45-47.
随着科技的进一步发展,已经带动着各大领域的创新和发展。而我国在近年来,城市信息化的普及也在不断推进,网络技术的改革和发展也显得格外重要。而特别很多企业对于自身的信息和数据储存、共享以及处理都格外注重,要求技术本身要包含安全性、便捷性以及可靠性。,而是在大数据提出后,数据挖掘技术已经成为了一种新的主流技术,而研究数据挖掘技术的理念、方法以及应用领域,将对我国工程施工领域的未来带来更多的机遇和挑战。
关键词:
大数据时代数据挖掘技术分析和研究运用数据挖掘技术,也被称为数字处理技术,顾名思义,就是对于目前各大企业的内部数据,进行整理、调整、挖掘实施以及评估等一系列处理操作,其主要的目标是保证全局数据都能够得到充分的优化。而大数据则是区分于以往抽样调查的方法,而是对于全局数据进行分析,从而保证分析的全面以及完成。而大数据技术也包含4个优点,即高数量、高速度、多元化以及高价值。而笔者将通过本文,就大数据时代的数据挖掘技术与应用进行分析和探讨。
1相关概念的简介
1.1大数据的概念关于大数据的理念提出,可以追溯到麦肯锡研究院于2011年的《大数据:创新、竞争和生产力的下一个新领域》,其中阐述的观念就涵盖数据方面,即数据已经融入到了人们的日常生活中,也是生产运作的一个重要因素。而大数据的运用,对于消费以及生产水平都是一种有效的提升提升,根据美国曾经的《大数据研究和发展倡议》资料,截至2011年一年,全球总的数据就增加了1.8ZB,而进行人均计算,相当于每个人都具有至少200GB的数据资源,而且这一数据还在呈现出日益增长的趋势,根据统计计算,这一数值将会按照约为50%/年的速度增长。
1.2数据挖掘作为一个新型学科,数据挖掘技术源于20世纪的80年代,那时其效用与目前存在本质差异,科学家最初研究大数据,主要是用于一些人工智能技术的开发。简而言之,技术层面上,数据挖掘就是一个对数据进行发掘创新的过程,即要求目标数据具有隐蔽性、挖掘价值以及挖掘潜力,而且需要操作者在一堆冗杂的、随机的、模糊的数据库中进行挖掘;而对于商业层面上来说,数据挖掘就是在一些大量的数据信息中获得规律以及价值信息,从而为决策提供重要的知识凭据。
2数据挖掘的研究手段
对于数据挖掘而言,不同的研究手段将是其开展的重要基础,而研究手段的决定,主要需要依靠科学的计算为依据,分析和对比数据中存在的一些不为人知的规则,然后通过研究手段的改变去应付不同的问题,对于实际操作来说,就是针对不同的数据找出不同的解决方法,而常见数据挖掘的研究手段主要可以分为四类,即聚类研究、分类和预测以及关联研究。
2.1聚类研究将抽选的数据或者对象的库进行类似“分类”的聚类划分,然后再将其中的相同或者相近的数据划分为一个组类,由此建立起多个组类开展研究的过程。整个过程突出的是一种无知识基础、无监督管控的学习过程。而整个过程由于分类研究有本质的差异,因为聚类研究在事先根本无法得到目标的重要属性数据,而这种分析方法主要可以用于多个区域,例如心理、统计、医药、销售以及数据识别等,而根据其隶属度的取值,有能将其分为两种研究方法,即硬聚类与模糊聚类,对于前者来说,就是将目标按照影响标准进行划分,即目标如果属于某类,必定不属于其他类;而对于后者来说,主要取决与隶属度的取值不同。而划分过程可能会将目标划分入多个聚类中。此外聚类的计算方法也能分为多种,即包含密度算法、层次算法、划分算法、网格算法以及模型算法等等。
2.2分类与估测对于分类与数值估测来说,都是属于是问题预测方式,其中前者要求估测各个类中的标号,这些标号都是分散且无规律的,而估测方法可以采用函数模型,要求模型类型为连续值函数。分类估测作为数据挖掘的起始工作,主要需要反应已经获知的训练数据库的特点,从而根据以上基础完成其中对每一类的情况以及特点完成相应的分类操作,而整个操作也是受到督促的,对于一般的分类算法可以有决策树、粗糙集、贝叶斯、遗传等算法,而估测主要是基于分类以及回归基础,估测数据将来的动向,即包含局势外推、时间序列以及回归分析几类。
2.3关联研究关联研究是源于自然生物间微妙的关系,而某事情的发生和发展也会引发连锁的事情发展,也就类似所谓“蝴蝶效应”的定义。而关联研究的研究目标即是研究物与物之间的微妙关系,包含一些依赖关系等等,从而找出其中的规则,基于规则,分析将来的动向。以购物为例,分析购物者的心理规律以及习惯,可以从他们对于购物的一系列表现,例如购物篮的物品类型、放置规律、购物消费理念、购物环境需求等等,而掌握这些规律,足以让一个销售企业获得巨大的消费市场以及商机。
3大数据时代的数据挖掘的运用
3.1数据准备准备流程需要依附于研究者已经建立起长期且丰富数据资源的数据库,而根据这些无规则的原始数据进行相应的挖掘前的准备的工作,例如数据的处理、择取、清除、推敲以及转变,作为基础的流程,数据准备操作在整个流程中起到重要的基础作用。
3.2数据挖掘开展数据挖掘操作,需要根据挖掘对象的情况择选最优的计算方法,从而获取其中的规律性,例如对应采用决策树算法、分类算法、神经网络算法以及Apriori算法等。
3.3数据挖掘的模式评估研究模式评估的对象主要是通过数据挖掘处理过程数据,而评估流程是了解、研究且取得其中数据的规则,然后对数据进行转变“翻译”成通俗易懂的语言,供人们去研究和思考。
3.4数据挖掘的知识应用知识应用是数据挖掘的最后一步,通常知识运用就是一种现实运用的过程,通过数据准备、挖掘、研究评估,最后将结果数据或者规律用于现实中,从而体现数据的本身的价值,这就是知识应用的内涵。
4大数据时代的数据挖掘的运用
4.1市场营销方面市场营销行业已经是目前数据挖掘采用最多的行业,数据挖掘的作用主要体现在的对于消费者群体的消费习惯以及行为进行解析,从而改变销售方法,提升产品的销售量,此外,除了一些购物消费以外,数据挖掘技术以及拓展到了各大金融行业,例如保险行业、银行行业以及电子商务行业等等。例如:在市场营销方面,采用数据挖掘中的聚类研究,即客户一系列无规则、无意识的行为数据,对他们进行识别,即根据客户的忠诚度、消费意识进行分类,帮助企业寻找其中的潜在客户以及固定客户群。
4.2数据挖掘的科学分析科学本身就是一个寻找规律、发现规律以及利用规律的过程,而且任何科学研究都是需要基于数据作为基础,所以数据挖掘对于科学领域也具有重要的意义和价值,特别是针对一些未知的事物、领域或者知识,通过数据挖掘可以有效展示数据规则。例如对于太空行星的分析,遗传基因DNA的数据以及遗传规律等。
4.3制造业与其他行业不同,制造业运用数据挖掘的目的主要是产品质量检查方面,例如研究产品的数据,找出其中规则。分析整体生产流程,解析其中过程,找出影响生产质量以及效率的问题,然后通过对这些问题进行解决,提升企业经济效益。对于制造业而言,数据挖掘运用主要体现在决策方面,即首先通过数据筛选,获取有用的知识和数据,然后采用决策树算法,统计决策,然后选择其中正确的决策,即像根据目前产品的流行情况,预测目前生产产品的受欢迎度,然后决策生产的时间以及周期。
4.4教育方面对于教育行业来说,最重要的除了教师的教学方法以外,学生的学习情况、心理动向以及教学评估都是十分重要的,采用数据挖掘技术,则可以有效将这些数据通过分类、筛选以及处理,得出有效的数据规则,供学校教学改革时进行参考。例如:教学质量评估数据挖掘模块的开发,即将教学质量相关的项目通过QSLSevrer进行整合和存储,例如教学准备、教学内容、教学方式以及教学态度等,最后学生可以进行自行浏览并且完成评估,而评估结果则会上传系统进行最后通过数据挖掘,筛选其中有用的信息,再通过Apr1ori算法挖掘其中关联规律。
5结语
虽然数据挖掘技术不是一项新兴的技术,但是其还具有较大的研究价值与运用前景,特别是在特殊领域的运用,对于一系列数据进行科学冗杂的处理,然后分析其中规则价值,可以有效提升各大行业的经济效益。
参考文献
[1]赵倩倩,程国建,冀乾宇,戎腾学.大数据崛起与数据挖掘刍议[J].电脑知识与技术,2014,11(33):7831-7833.
[2]韩英.浅析大数据时代的数据挖掘与精细管理[J].成都航空职业技术学院学报,2013,12(04):63-71.
【关键词】信息时代;数据;利用;挖掘;应用
1.数据挖掘的起源
随着科学技术的日新月异,信息正在处于爆炸的时代,但是在数据庞大的背后,人们对其利用和提取的价值是有限的,有时候是不能满足现实的需要。当前大部分只是对所有的数据进行储存、统计、查询,很难找出数据背后存在的某种关系和规律,更不能对数据的未来发展进行准确的预测。这也就导致了虽然信息数据非常多但是价值却占到很少的一部分。正是因为有这种情况的产生,信息挖掘技术才会得到发展和应用。
2.数据挖掘的定义
所谓的信息挖掘通过对一些已有的数据存在不确定性、信息量大、不完整的数据进行分析提取,提取出数据背后存在的一些价值和有用的信息。通过对这些数据的分析提取为一些技术部门和相关的人员的战略决策提供很大的支持。
3.数据挖掘的过程
数据的挖掘是通过数据挖掘算法提取出数据模型,还有就是针对数据挖掘所采取的一些方法和步骤,一般都是经历几次甚至多次的处理过程。最后才会在数据上提取到其存在的潜在价值,整个过程主要包括一下几个阶段。
(1)目标定义阶段
做任何事情之前通过对将要做的事情进行计划分析,然后制定对所做这件事情需要达到的目标,这样事情就会很容易成功。数据挖掘也不例外,在对数据进行挖掘的时候,需要相关的人员了解和明确对所挖掘的数据要达到的目的,这也很大程度上会决定数据挖掘的成功与否。因此相关人员要在指定明确的目标,然后选择一定的技术手段和方式对数据进行挖掘。
(2)数据准备阶段
根据已有的数据挖掘目标,就应该对所有的数据进行分析处理,大略的挑出能达到目标的一些数据,剔除一些没有意义的数据。还有就是对数据进行一些变化,主要就是为了能够在一些有特征的数据找出符合要求的数据,减少在数据挖掘过程中需要考虑的其他因素。
(3)数据挖掘阶段
这个阶段是整个数据挖掘阶段最重要、最核心的阶段。相关的工作人员应该在已有的数据挖掘目标的基础上选择合理、科学的数据挖掘方法对数据进行挖掘,提取出数据背后隐藏的价值。
(4)数据挖掘结果解释和评估阶段
首先应该对数据挖掘出来的信息进行研究,把最终满足要求的数据提取出来。因为数据的挖掘的最终目的就是为客户服务,所以还应该针对客户的一些特殊要求对挖掘出来的数据进行提炼,经过客户对所挖掘的数据结果的评估后,将一些不满足要求的数据剔除。还有就是把挖掘的数据应该进行合理的优化使其更加人性化,给客户优质的服务。
4.数据挖掘的研究方向
(1)对于数据挖掘系统来说,其不可能对各类型的数据进行数据挖掘,因此应该针对不同类型的数据研究出不同的数据挖掘系统,这样就可以在数据挖掘时能够快速、高效的对数据进行挖掘。
(2)数据挖掘系统应该具备能够对数据进行高效率的挖掘,因为随着信息化时代的到来,数据会越来越多,越来越复杂。如果其系统不能高效的工作,会很大程度上影响到数据挖掘的整体进度。
(3)数据挖掘结果的准确性、通俗性以及有效性也是数据挖掘所需要达到的,只有这几方面都能满足要求,才会能够很好的服务客户。
(4)随着信息时代和科学技术的快速发展,人们也越来越关注到一些个人隐私。所以在对数据挖掘的过程中不应该侵犯到他人的隐私。还有就是对挖掘出来的数据有一定的安全保护措施,防止数据丢失。
(5)挖掘出来的数据也应该能够及时的和现有的数据进行结合和补充,这样就能使数据得到更广泛的应用和利用。
5.数据挖掘的应用领域
随着科技的不断发展和信息化时代的到来,数据挖掘技术也取得了一些成就,在许多行业也得到了一定的应用
(1)科学研究
因为许多科学研究的数据的大量性、复杂性使得一般的分析工具很大对数据进行分析、提取,因此数据挖掘技术在这种情况下深受科学研究方面的广大欢迎,其也在这个行业得到了快速的发展和应用。通过数据挖掘在科学研究的应用,促进了科学的快速发展,使其能够为社会提供有价值的科学成果,为国家做出贡献。
(2)风险分析和欺诈辨别
因为许多行业的数据存在具有庞大性、真假难辨性,所以对这些数据进行挖掘分析,分析出有价值、真的数据,防止因为假的数据给我们带来的不必要的麻烦。还可以经过对数据的挖掘分析提高对风险的分析能力。还有就是一些行业的数据可能被不法分子利用对人们进行欺诈,通过数据挖掘可以对这些数据进行辨别,从而避免了经济损失。
(3)制造业的应用
数据挖掘一般就是对制造业的制造部件的缺陷进行分析,通过分析挖掘出能够优化制造部件的数据,从而避免制造部件的缺陷。
(4)学校教育的应用
学校的数据也是非常庞大、复杂的,因此数据挖掘也在学校的各个信息系统得到了一定的应用。学校通过数据挖掘挖掘出对学校、老师、学生有价值的数据,从而让学校科学的管理,老师更加高效的工作和教学,学生更加高效的学习。
参考文献:
[1] Jiawei Han.Data Mining:Concepts and Techniques[M].机械工业出版社.2004
[2] 刘同明等.数据挖掘技术及其应用[J].北京:国防工业出版社.2001.(9)
[3] 康晓东.基于数据仓库的数据挖掘技术[J].北京:机械工业出版社.2004.(1):131~175