时间:2023-02-28 15:52:40
序论:在您撰写数据挖掘技术分析论文时,参考他人的优秀作品可以开阔视野,小编为您整理的7篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。
[关键词]数据挖掘数据挖掘方法
随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
关键词 技术情报分析;数据挖掘
中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)92-0211-02
1 概述
在面对海量的情报信息资源时,如何高效、准确的开展分析工作,为管理决策人员提供支持,已成为当今科技工作的重要组成部分。可以说,情报分析方法和相关工具的合理使用决定了情报获取的准确性和有效性,并将直接影响制定战略决策的有效性和科学性。
技术情报分析系统主要进行与技术相关科技论文、专利、互联网情报数据的分析,实现分析方法、算法、分析结果的表现形式以及分析报告自动生成等技术。该情报分析系统除了基本的维度统计分析外,更多的侧重于利用知识发现、数据挖掘等技术进行情报数据的深度处理与分析。通过情报分析系统开发设计,结合数据挖掘等技术的合理使用,使得系统使用者能够快速、有效、全面地获取技术的情报信息。
2 系统的设计与功能描述
2.3 数据挖掘技术设计
2.3.1数据文本特征表示
在进行文本挖掘时,对文本特征进行处理,实现对非结构化的文本向结构化转换。情报分析系统采用向量空间模型(Vector Space Model,VSM)进行文本的表示,并利用倒排文档频率TFIDF进行专利文本的特征提取,以此作为论文、专利文本挖掘的基础。
2.3.2关联算法
在挖掘论文专利作者之间、机构之间、国家之间的研究内容关联性上,采用了基于文本挖掘的关联算法。通过对技术关键词的共生关系(Terms Co-occurrences)计算来识别、确定一组文献内部所包含的技术组(群)。
2.3.3 层次结构可视化算法
情报分析系统中关于论文和专利的引证分析、专利同族分析采用了层次结构可视化算法Hyperbolic Tree,即双曲树算法。其主要原理是将树结构在双曲空间进行布局,然后映射到欧式空间的庞莱卡圆盘进行显示。欧式空间中两个相同大小的区域离庞莱卡圆盘中心越近,在双曲空间中所占用的空间越小;反之,双曲空间中两个大小相同的区域离原点越近在庞莱卡圆盘中所占用的空间越大。
4 结论
本文提出运用数据挖掘方法实现对大量数据的分析和判断,可有效帮助科技情报机构和人员提高综合情报分析能力和决策的质量。同时,该方法可按照不同需要进行功能拓展,实现向更多的技术情报领域延伸。
参考文献
[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一届亚太地区知识发现与数据挖掘国际会议(PAKDD),IOS Press出版, 2007.
[2]乐明扬.公安情报分析中的数据挖掘应用研究.信息与电脑.2012(8).
[3]蒲群莹.基于数据挖掘的竞争情报系统模型[J].情报杂志.2005,1.
数据挖掘技术是近些年发展起来的一门新兴学科,它涉及到数据库和人工智能等多个领域。随着计算机技术的普及数据库产生大量数据,能够从这些大量数据中抽取出有价值信息的技术称之为数据挖掘技术。数据挖掘方法有统计学方法、关联规则挖掘、决策树方法、聚类方法等八种方法,关联规则是其中最常用的研究方法。关联规则算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指从海量数据中挖掘出有价值的能够揭示实体和数据项间某些隐藏的联系的有关知识,其中描述关联规则的两个重要概念分别是Suppor(t支持度)和Confi-dence(可信度)。只有当Support和Confidence两者都较高的关联规则才是有效的、需要进一步进行分析和应用的规则。
二、使用Weka进行关联挖掘
Weka的全名是怀卡托智能分析环境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免费的、非商业化的、基于JAVA环境下开源的机器学习以及数据挖掘软件[2]。它包含了许多数据挖掘的算法,是目前最完备的数据挖掘软件之一。Weka软件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四种模块[2]。其中Explorer是用来探索数据环境的,Experimenter是对各种实验计划进行数据测试,KnowledgeFlow和Explorer类似,但该模块通过其特殊的接口可以让使用者通过拖动的形式去创建实验方案,Simple-CLI为简单的命令行界面。以下数据挖掘任务主要用Ex-plorer模块来进行。
(一)数据预处理
数据挖掘所需要的所有数据可以由系统排序模块生成并进行下载。这里我们下载近两年的教师科研信息。为了使论文总分、学术著作总分、科研获奖总分、科研立项总分、科研总得分更有利于数据挖掘计算,在这里我们将以上得分分别确定分类属性值。
(二)数据载入
点击Explorer进入后有四种载入数据的方式,这里采用第一种Openfile形式。由于Weka所支持的标准数据格式为ARFF,我们将处理好的xls格式另存为csv,在weka中找到这个文件并重新保存为arff文件格式来实现数据的载入。由于所载入的数据噪声比较多,这里应根据数据挖掘任务对数据表中与本次数据任务不相关的属性进行移除,只将学历、职称、论文等级、学术著作等级、科研获奖等级、科研立项等级、科研总分等级留下。
(三)关联挖掘与结果分析
WeakExplorer界面中提供了数据挖掘多种算法,在这里我们选择“Associate”标签下的Apriori算法。之后将“lowerBoundMinSupprot”(最小支持度)参数值设为0.1,将“upperBoundMinSupprot”(最大支持度)参数值设为1,在“metiricType”的参数值选项中选择lift选项,将“minMetric”参数值设为1.1,将“numRules”(数据集数)参数值设为10,其它选项保存默认值,这样就可以挖掘出支持度在10%到100%之间并且lift值超过1.1且排名前10名的关联规则。其挖掘参数信息和关联挖掘的部分结果。
三、挖掘结果与应用
以上是针对教师基本情况和科研各项总分进行的反复的数据挖掘工作,从挖掘结果中找到最佳模式进行汇总。以下列出了几项作为参考的关联数据挖掘结果。
1、科研立项得分与论文、科研总得分关联度高,即科研立项为A级的论文也一定是A。这与实际也是相符的,因为科研立项得A的教师应该是主持了省级或是国家级的立项的同时也参与了其他教师的科研立项,在课题研究的过程中一定会有国家级论文或者省级论文进行发表来支撑立项,所以这类教师的论文得分也会很高。针对这样的结果,在今后的科研工作中,科研处要鼓励和帮助教师搞科研,为教师的科研工作提供精神上的支持和物质上的帮助,这样在很大程度上能够带动整个学校科研工作的进展。
2、副教授类的教师科研立项得分很高,而讲师类教师和助教类教师的科研立项得分很低,这样符合实际情况。因为副教授类的教师有一定的教学经验,并且很多副教授类的教师还想晋职称,所以大多数副教授类教师都会申请一些课题。而对于讲师类和助教类的教师,由于教学经验不足很少能进行省级以上的课题研究,因此这两类教师的科研立项分数不高。针对这样的结果,在今后的科研工作中,科研处可以采用一帮一、结对子的形式来帮助年轻教师,这样可以使青年教师参与到老教师的科研课题研究工作中去,在课题研究工程中提高科研能力和教学能力。
统计学论文2000字(一):影响民族院校统计学专业回归分析成绩因素的研究论文
摘要:学习成绩是评价学生素质的重要方面,也是教师检验教学能力、反思教学成果的重要标准。利用大连民族大学统计学专业本科生有关数据(专业基础课成绩、平时成绩和回归分析期末成绩),建立多元線性回归模型,对影响回归分析期末成绩的因素进行深入研究,其结果对今后的教学方法改进和教学质量提高具有十分重要的指导意义。
关键词:多元线性回归;专业基础课成绩;平时成绩;期末成绩
为了实现教学目标,提高教学质量,有效提高学生学习成绩是很有必要的。我们知道专业基础课成绩必定影响专业课成绩,而且平时成绩也会影响专业课成绩,这两类成绩与专业课成绩基本上是呈正相关的,但它们之间的关系密切程度有多大?它们之间又存在怎样的内在联系呢?就这些问题,本文主要选取了2016级统计专业50名学生的四门专业基础课成绩以及回归分析的平时成绩和期末成绩,运用SPSS统计软件进行分析研究,寻求回归分析期末成绩影响因素的变化规律,拟合出关系式,从而为强化学生的后续学习和提高老师的教学质量提供了有利依据。
一、数据选取
回归分析是统计专业必修课,也是统计学中的一个非常重要的分支,它在自然科学、管理科学和社会、经济等领域应用十分广泛。因此研究影响统计学专业回归分析成绩的相关性是十分重要的。
选取了统计专业50名学生的专业基础课成绩(包括数学分析、高等代数、解析几何和概率论)、回归分析的平时成绩和期末成绩,结合多元线性回归的基础理论知识[1-2],建立多元回归方程,进行深入研究,可以直观、高效、科学地分析各种因素对回归分析期末成绩造成的影响。
二、建立多元线性回归模型1及数据分析
运用SPSS统计软件对回归分析期末成绩的影响因素进行研究,可以得到准确、科学合理的数据结果,全面分析评价学生考试成绩,对教师以后的教学工作和学生的学习会有较大帮助。自变量x1表示数学分析成绩,x2表示高等代数成绩,x3表示解析几何成绩,x4表示概率论成绩,x5表示平时成绩;因变量y1表示回归分析期末成绩,根据经验可知因变量y1和自变量xi,i=1,2,3,4,5之间大致成线性关系,可建立线性回归模型:
(1)
线性回归模型通常满足以下几个基本假设,
1.随机误差项具有零均值和等方差,即
(2)
这个假定通常称为高斯-马尔柯夫条件。
2.正态分布假定条件
由多元正态分布的性质和上述假定可知,随机变量y1服从n维正态分布。
从表1描述性统计表中可看到各变量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的标准差分别为10.847,11.531,8.929,9.018,9.221,y1的标准差为8.141;有效样本量n=50。
回归分析期末成绩y1的多元回归模型1为:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
从表2中可以看到各变量的|t|值,在给定显著水平?琢=0.05的情况下,通过t分布表可以查出,自由度为44的临界值t?琢/2(44)=2.015,由于高等代数x2的|t|值为0.651小于t?琢/2(44),因此x2对y1的影响不显著,其他自变量对y1都是线性显著的。下面利用后退法[3]剔除自变量x2。
三、后退法建立多元线性回归模型2及数据分析
从模型1中剔除了x2变量,多元回归模型2为:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F统计量为90.326,在给定显著水平?琢=0.05的情况下,查F分布表可得,自由度為p=4和n-p-1=45的临界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自变量的|t|值都大于t?琢/2(45)=2.014,因此,多元回归模型2的线性关系是显著的。
四、结束语
通过对上述模型进行分析,即各个自变量对因变量的边际影响,可以得到以下结论:在保持其他条件不变的情况下,当数学分析成绩提高一分,则回归分析成绩可提高0.242分[4-5];同理,当解析几何成绩、概率论成绩和平时成绩每提高一分,则回归分析成绩分别提高0.149分、0.377分和0.293分。
通过对学生专业基础课成绩、平时成绩与回归分析期末成绩之间相关关系的研究,一方面有利于教师把控回归分析教学课堂,提高教师意识,注重专业基础课教学的重要性,同时,当学生平时成绩不好时,随时调整教学进度提高学生平时学习能力;另一方面使学生认识到,为了更好地掌握回归分析知识,应加强专业基础课的学习,提高平时学习的积极性。因此,通过对回归分析期末成绩影响因素的研究能有效的解决教师教学和学生学习中的许多问题。
统计学毕业论文范文模板(二):大数据背景下统计学专业“数据挖掘”课程的教学探讨论文
摘要:互联网技术、物联网技术、云计算技术的蓬勃发展,造就了一个崭新的大数据时代,这些变化对统计学专业人才培养模式的变革起到了助推器的作用,而数据挖掘作为拓展和提升大数据分析方法与思路的应用型课程,被广泛纳入统计学本科专业人才培养方案。本文基于数据挖掘课程的特点,结合实际教学经验,对统计学本科专业开设数据挖掘课程进行教学探讨,以期达到更好的教学效果。
关键词:统计学专业;数据挖掘;大数据;教学
一、引言
通常人们总结大数据有“4V”的特點:Volume(体量大),Variety(多样性),Velocity(速度快)和Value(价值密度低)。从这样大量、多样化的数据中挖掘和发现内在的价值,是这个时代带给我们的机遇与挑战,同时对数据分析技术的要求也相应提高。传统教学模式并不能适应和满足学生了解数据处理和分析最新技术与方法的迫切需要。对于常常和数据打交道的统计学专业的学生来说,更是如此。
二、课程教学探讨
针对统计学本科专业的学生而言,“数据挖掘”课程一般在他们三年级或者四年级所开设,他们在前期已经学习完统计学、应用回归分析、多元统计分析、时间序列分析等课程,所以在“数据挖掘”课程的教学内容选择上要有所取舍,同时把握好难度。不能把“数据挖掘”课程涵盖了的所有内容不加选择地要求学生全部掌握,对学生来说是不太现实的,需要为统计学专业本科生“个性化定制”教学内容。
(1)“数据挖掘”课程的教学应该偏重于应用,更注重培养学生解决问题的能力。因此,教学目标应该是:使学生树立数据挖掘的思维体系,掌握数据挖掘的基本方法,提高学生的实际动手能力,为在大数据时代,进一步学习各种数据处理和定量分析工具打下必要的基础。按照这个目标,教学内容应以数据挖掘技术的基本原理讲解为主,让学生了解和掌握各种技术和方法的来龙去脉、功能及优缺点;以算法讲解为辅,由于有R语言、python等软件,学生了解典型的算法,能用软件把算法实现,对软件的计算结果熟练解读,对各种算法的改进和深入研究则不作要求,有兴趣的同学可以自行课下探讨。
(2)对于已经学过的内容不再详细讲解,而是侧重介绍它们在数据挖掘中的功能及综合应用。在新知识的讲解过程中,注意和已学过知识的融汇贯通,既复习巩固了原来学过的知识,同时也无形中降低了新知识的难度。比如,在数据挖掘模型评估中,把混淆矩阵、ROC曲线、误差平方和等知识点就能和之前学过的内容有机联系起来。
(3)结合现实数据,让学生由“被动接收”式的学习变为“主动探究”型的学习。在讲解每种方法和技术之后,增加一个或几个案例,以加强学生对知识的理解。除了充分利用已有的国内外数据资源,还可以鼓励学生去搜集自己感兴趣的或者国家及社会大众关注的问题进行研究,提升学生学习的成就感。
(4)充分考虑前述提到的三点,课程内容计划安排见表1。
(5)课程的考核方式既要一定的理论性,又不能失掉实践应用性,所以需要结合平时课堂表现、平时实验项目完成情况和期末考试来综合评定成绩。采取期末闭卷理论考试占50%,平时实验项目完成占40%,课堂表现占10%,这样可以全方位的评价学生的表现。
三、教学效果评估
经过几轮的教学实践后,取得了如下的教学效果:
(1)学生对课程的兴趣度在提升,课下也会不停地去思考数据挖掘有关的方法和技巧,发现问题后会一起交流与讨论。
(2)在大学生创新创业项目或者数据分析的有关竞赛中,选用数据挖掘方法的人数也越来越多,部分同学的成果还能在期刊上正式发表,有的同学还能在竞赛中取得优秀的成绩。
(3)统计学专业本科生毕业论文的选题中利用数据挖掘有关方法来完成的论文越来越多,论文的完成质量也在不断提高。
(4)本科毕业生的就业岗位中从事数据挖掘工作的人数有所提高,说明满足企业需求技能的人数在增加。继续深造的毕业生选择数据挖掘研究方向的人数也在逐渐增多,表明学生的学习兴趣得以激发。
教学实践结果表明,通过数据挖掘课程的学习,可以让学生在掌握理论知识的基础上,进一步提升分析问题和解决实际问题的能力。
关键词:数据挖掘;决策树;C4.5算法;教学管理;高校教学
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2012)30-7150-04
随着数字信息化社会的飞速发展,计算机技术和数据库管理系统被广泛应用于科学探索、商业、金融业、电子商务、企业生产等各种行业,已逐渐发展成为一种智能管理过程。数据挖掘作为一种新兴的数据分析技术,它的研究成果取得了令人瞩目的成就[1]。利用数据库技术,通过对教务管理的大量数据进行多层次、多维度的加工处理,从而实现人性化管理,为科学决策提供支持。
毕业论文在教学体系中占有十分重要的位置,是本科生培养计划中衡量教学质量的重要指标。提高毕业论文教学质量是一项系统工程,为研究在当前的教学条件下如何提高毕业论文教学质量,本文采用数据挖掘技术对影响毕业论文成绩管理的多方面因素进行了深入分析和挖掘,以期发现对学校毕业论文教学管理有用的知识,将这些知识应用于本科学生毕业论文教学实践中,为学校管理者提供有用的信息,进而获得更好的管理效益,为学校未来的发展提供更广阔的空间,发挥重要的作用。
1 数据挖掘简介
数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge discovery in Database. KDD)[2],是通过分析每一个具体数据,从大量的、有噪声的、模糊的、随机的海量数据中寻找其规律的技术,它是数据库研究中的一个很有应用价值的新领域。
1.1 数据挖掘的定义
H包含如下功能:
综上所述,数据挖掘具有三大特点:其一是处理大型数据;其二应用数据挖掘的目的是发现未知的、有意义的模式或规律;其三是一个对大量数据处理的过程,有特定的步骤[3]。
1.2 数据挖掘的主要方法
数据挖掘是一个多学科交叉领域,它由人工智能、机器学习的方法起步,并与统计分析方法、模糊数学和可视化技术相融合,以数据库为研究对象,围绕面对应用,为决策者提供服务。
数据挖掘的方法主要可分为六大类:统计分析方法、归纳学习方法、仿生物技术、可视化技术、聚类方法和模糊数学方法。归纳学习法是目前重点研究的方向,本文根据给定的训练样本数据集,采用归纳学习法中的决策树技术构造分类模型,将事例分类成不同的类别。
2 决策树算法基本理论
2.1 决策树方法介绍
决策树[4]方法是以事例学习为基础的归纳推算法,着眼于从一组无序的,无规则的事例中推断出类似条件下会得到什么值这类规则的方法,它是一种逼近离散值函数的方法,也可以看作一个布尔函数[5]。决策树归纳方法是目前许多数据挖掘商用系统的基础,可以应用于分析数据,同样也可以用来作预测。建模过程中,即树的生长过程是不断的把数据进行切分,采用“自顶向下,分而治之”的方法将问题的搜索空间划分为若干个互不交叉的子集,通常用来形成分类器和预测模型。如图1所示,为决策树的示意图。
决策树一种类似流程图的树形结构,是一种知识的表现形式。为了对未知样本进行分类,生成具体的分类规则,信息样本的各个属性值要在决策树上进行测试。主要分为两个阶段:在第一阶段中生成树。决策树最上面的节点为根节点,是整个决策树的开始,然后递归的进行数据分区,每次切分对应一个问题,也对应着一个节点;在第二阶段中对树进行修剪,此过程中去掉一些可能是噪音或异常的数据,防止决策树的过匹配,进而保证生成决策树的有效性和合理性。当一个节点中的所有数据都属于同一类别,或者没有属性可以再用于数据进行分割时,分割工作停止。具体的工作流程如图2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3决策树算法,它是最早的决策树算法之一。ID3算法运用信息熵理论,选择当前样本中具有信息增益值的属性作为测试属性,对样本的划分则依据测试属性的取值[6]。C4.5算法是在ID3算法基础上发展起来的,它继承了ID3算法的全部优点,并增加了新的功能改进了ID3算法中的不足,可以进行连续值属性处理并处理未知值的训练样本。在应用单机的决策树算法中,C4.5算法不仅分类准确而且执行速度快。
C4.5通过两个步骤来建立决策树:第一阶段树的生成,第二阶段树的剪枝。C4.5算法采用信息增益率来记录字段不同取值的选择,首先计算各个属性的信息增益率,寻找到规则信息的优劣,选出信息增益率最大的属性作为结点,自顶向下生成决策树。C4.5算法构造决策树的基本策略如下:
首先计算出给定样本所需的期望信息,设S为一个包含s个数据样本的集合,对于类别属性,可以取m个不同取值,分别对应于m个不同的类别[Ci(i∈1,2,...,m)]。假设类别[Ci]中的样本个数为[si],期望信息为:
其中,[Pi]是任意样本属于[Ci]的概率,并用[sis]估计。
接着,计算当前样本集合所需用的信息熵,设一个属性A具有n个不同的值[(a1,a2,...an)],利用属性A可以将集合S划分为n个子集[S1,S2,...Sn],其中[Sj]包含了S集合中属性A取[aj]值的样本数据。如果属性A被选作测试属性,设[Sij]为[Sj]中属于[Ci]类别的样本集,根据A划分计算的熵为:
然后利用属性A对当前分支结点进行相应样本集合划分计算信息增益:
最后,求信息增益率,表达式为:
C4.5算法的伪代码如下:
输入:训练样本Samples;目标属性Target—attribute;候选属性的集合Attributes
输出:一棵决策树
1)创建根节点root;
2)If Samples都在同一类C Then;
3)返回label=类C的单结点树root;
4)If Attributes为空Then;
5)返回单结点树root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each测试属性列表Attributes中的属性;
8)IF测试属性是连续的Then;
9)对测试属性进行离散化处理,找出使其信息增益比率最大的分割阈值;
10)Else;
11)计算测试属性的信息增益比率;
20)添加子树Generate Tree C4.5;
21)对已建立的决策树计算每个结点的分类错误,进行剪枝,并返回根结点Root。
3 毕业论文成绩管理系统的设计和实现
利用数据挖掘技术对学生的成绩数据进行提炼,所产生的结果和信息会对以后的教学管理工作提供有用的信息,进而获得更好的管理效益。解决问题的重点在于怎样对学生的毕业论文成绩进行全面且深度的分析,从而挖掘出成绩与其他因素之间隐藏的内在联系。本文采用决策树技术挖掘信息时,主要操作步骤如下:
1)确定挖掘来源:清晰地定义挖掘对象,明确挖掘目标是数据挖掘所有工作中重要的一步。本文中应用于挖掘的数据信息是毕业生的毕业论文成绩,旨在通过对大量成绩数据进行各层次的挖掘,全面了解具体影响学生毕业论文成绩的各方面因素,正确的针对问题拟定分析过程。
2)获取相关知识:数据是挖掘知识最原始的资料,根据确定的数据分析对象,抽象出数据分析中所需要的特征信息模型。领域问题的数据收集完成之后,与目标信息相关的属性也随之确定。这些数据有些是可以直接获得的,有些则需要对学生进行调查才能的得到。
3)数据预处理:此过程中是对已收集的大量数据进行整合与检查。因为存放在数据库中的数据一般是不完整的、不一致的,通常还含有噪声的存在。因此就需要对数据库中数据进行清理、整理和归并,以提高挖掘过程的精度和性能。
4)数据转换:对预处理后的数据建立分析模型,对于特定的任务,需要选择合适的算法来建立一个准确的适合挖掘算法的分析模型。本文采用决策树技术进行分类建模来解决相应的问题。
5)分类挖掘知识和信息:此阶段的工作目的是根据系统最终要实现的功能和任务来确定挖掘的分类模型。选择合适的数据挖掘技术及算法,并采用恰当的程序设计语言来实现该算法,对净化和转换过得数据训练集进行挖掘,获得有价值的分析信息。
6)知识表示:将数据挖掘得到的分析信息进一步的解释和评价,生成可用的、正确的、可理解的分类规则呈现给管理者,应用于实践。
7)知识应用:将分析得到的规则应用到教学管理中,教师可以利用所得到的知识针对性的开展毕业设计的教学活动,进一步指导教学工作,提高教学水平和学生的毕业论文质量。
4 结论
最终发现影响学生毕业论文成绩主要的因素不是指导教师的职称,学生的基础及感兴趣程度,而是指导教师的学历高低。根据具体分类规则的结论,学校教学管理工作应加重对教师的素质及能力培养,合理的分配每个教师的毕业论文指导工作,不仅能够有效的完成毕业课题指导工作,更有助于学生整体论文质量的提高。
在高校教学数字化的时代趋势下,利用数据挖掘技术来挖掘提取教学工作中的全面而有价值信息,可以为教育管理者的教学工作提供有效的参考信息,改进教学管理方法,提高教学质量和学生的综合素质,是高校保持良好的可持续发展的有力工具。
参考文献:
[1] 刘玉文.数据挖掘在高校招生中的研究与应用[D].上海:上海师范大学,2008.
[2] 魏萍萍,王翠茹,王保义,张振兴.数据挖掘技术及其在高校教学系统中的应用[J].计算机工程,2003.29(11):87-89.
[3] 刘林东. Web挖掘在考试系统中的应用[J].计算机应用研究,2005(2):150-154.
[4] Tom M Mitchell.(美)卡内基梅隆大学.机器学习[D].曾华军,张银奎,译,北京:机械工业出版社,2003.
关键词:医学院校;目标驱动;课程设计;毕业论文
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2012)12-0218-02
一、背景
“数据仓库与数据挖掘”是国内外高等院校一门重要的课程,是国家基础教育较为重视的一门学科,受到不同专业学生的喜爱。其教学目标是提高学生的数据分析水平和能力,除了教授学生数据分析的常见方法之外,还将引导学生如何对实际的问题进行建模,如何对模型进行简化和求解。利用实例教学等方法,可以很好地将数据挖掘中的抽象概念、模型、公式等阐述清楚,让学生易于理解和接受。近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面都获得了可喜的成果。运用各种数据挖掘技术了解各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究都是非常有价值的。因此,我们学院也把这门课程作为计算机专业及信息管理与信息系统专业的必修课。把计算机与医学结合,使得学生的培养方案全面包括了计算机与医学的知识点。由于该课程原本属于研究生阶段开设的专业课程,教材也大多侧重于介绍体系结构、算法原理、效率分析与改进等理论知识,其中所涉及的内容大多比较深,许多知识都超出了本科生的接受范围,此外,教材对相关理论在实际应用方面的说明也比较少,不利于安排实验教学。因此要实现“数据仓库与数据挖掘”课程的教学目标,必须在理论教学和实验教学环节综合考虑学时多少、教学条件以及学生的接受情况等因素,灵活地加以选择安排。
二、存在的问题
主要包括以下几方面:①课堂上以教师讲、学生听的教学形式为主,学生学习处于被动状态,他们的创造性因此被严重扼杀;②教师对专业课程体系和学生的知识体系不够重视,对课程体系的讲解不到位,造成学生在学习时课程之间联系不上,知识衔接不好,对知识的运用和融会贯通比较差;③实验与理论脱节。“数据仓库与数据挖掘”课程理论讲授的算法与实验软件中的算法有很大差距,使得学生难以理解。比如对于理论上讲授的关联规则算法,实验中使用SQL SERVER 2005中的商务智能工具做实验,学生发现有很多参数与理论上讲授的有很大不同;④医学院校的学生对纯粹计算机理论知识接受困难。由于该门课程是交叉学科,涉及计算机、数学、统计学等知识,如果学生的其他学科学得不好,就会对该课程的学习产生障碍;⑤教师讲授没有把理论课程结合到实际应用中。有很多学生不知道学习这门课的意义,老师没有很好引导学生,激活他们的学习热情。
三、目标驱动的教学框架
对于以上问题,本文提出了一个新的教学体系,设计了一套基于目标驱动的教学框架,把教师与学生紧密联系起来,从教学大纲的设置,教材的选择,理论教学,实验教学,课程设计及毕业论文,全面引导学生从初步了解到深入学习的过程。对于我们学校的实际情况,有两个专业的学生要学习这门课程。一个是计算机科学与技术专业,一个是信息管理与信息系统专业。对于两个不同的专业,我们设置不同的教学大纲。比如对于计算机专业的学生,数据仓库和数据挖掘教学总时数为72学时,其中理论为54学时,实验为36学时。
1.理论教学。对于信息管理与信息系统专业的学生,我们可以设置如下的教学计划,可分为三个主要部分。我们教材选择韩家炜的《数据挖掘概念与技术》,第一部分:第一至四章为数据挖掘的基础知识,包括数据仓库和数据挖掘的基本概念和相关知识介绍;第二部分:第五、六章介绍了数据挖掘的算法和工具;第三部分:第七章是数据挖掘的聚类分析的实际应用。本课程是信息管理与信息系统专业本科生专业必修课。通过该课程的学习,要求学生掌握数据仓库和数据挖掘的基本概念,了解基本方法和应用背景。掌握数据仓库的设计和建立,掌握数据挖掘的主要步骤和实现方法,数据挖掘的常用算法,实现数据挖掘的具体操作。理论学时的安排,第一章绪论(6学时);第二章数据仓库(4学时);第三章数据预处理(8学时);第四章数据挖掘发现知识的类型(8学时);第五章数据挖掘中常用算法(12学时);第六章数据挖掘的工具及其应用(8学时);第七章数据挖掘应用实例(8学时)。
2.实验教学。本课程配合理论教学,通过系统的实践教学锻炼,着重培养学生的独立分析问题和解决问题的能力,熟练掌握数据仓库的设计和建立以及各类数据挖掘方法,使学生具有一定的数据分析和挖掘能力,能在认识基础上,提出有效的数据挖掘方法,依据实际例子,写出解决方案。学生应在实验课前明确实验的目的和要求,然后针对相关问题写出解决方案。实验时对实际方案的运行结果应能进行分析并提出改进方法,最终写出实验报告。通过实验教学应达到以下基本要求:①理解数据仓库的工作机理及其构建过程;②掌握典型的数据仓库系统及其开发工具的使用;③理解数据挖掘技术的工作原理与流程;④掌握典型数据挖掘工具的使用;⑤掌握几种典型的数据挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解决实际问题。实验成绩包括:实验教学过程成绩、实验报告成绩,各占50%。实验过程表现成绩包括:学习态度是否认真、实验操作是否正确规范、基本技能掌握程度是否具有创新意识等方面。实验报告成绩包括:实验报告格式是否正确、原理是否论述清楚、实验结果分析讨论是否符合逻辑,报告字迹是否清楚等方面。
3.课程设计。理论课和实验课接近结束时,我们把最后三周作为本门课程的课程设计。课程设计的目的是让学生进一步深刻理解所学知识。由于本门课程很多算法不容易理解,如何让学生把所学知识结合到医学应用中是课程设计的关键。比如我们对信息管理与信息系统专业的学生课程设计,要求学生每人选择一个老师给定的题目,课程设计有详细的要求,比如题目“数据挖掘在医学诊断中的应用”要求学生能把本门课程相关的算法结合使用,最后给出详细的分析。通过课程设计,我们发现,学生对本门课程更有兴趣。
4.毕业论文。我们把课程一般开设在大三的下学期,也就是说学生学完这门课程后,就做了该门课的课程设计,使得学生对数据挖掘相关知识有了比较深刻的认识。这样,我们可以引导学生毕业论文的选择。毕业论文毕竟是反映学生大学四年所学知识,也对他们将来就业起到提前培训的作用。把理论结合实践,老师对学生的引导也十分重要。
我们根据医学院校的特征,提出了一套目标驱动的教学理念,从学生认识这门课程到学生理论课的学习,实验课的学习,课程设计及毕业论文的完成,在老师的指导下,使用我们的考核体系,可提高学生对所学课程的兴趣。
参考文献:
关键词:远程开放教育,数据挖掘,应用,智能化
1 前言
现代远程开放教育的全过程基本上都是通过浏览网站的形式进行的,学生在Web上的行为都会产生大量的信息,这些信息在远程教育的全过程中十分宝贵,充分挖掘这些信息及其背后潜在的信息,反馈来指导远程教育中的各个环节,以此来为学生提供个性化的服务内容,增强远程开放教育的竞争力。利用数据库技术来存储管理数据,利用网络和计算机学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识,即数据库中的知识发现---KDD(Knowledge Discovery in Databases),其中,数据挖掘技术便是最为关键的环节。论文参考网。基于远程开放教育将是当前和未来教育的重要辅助系统,本文提出并介绍信了把数据挖掘技术应用于现代远程开放教育系统中。
2 数据挖掘概述
2.1数据挖掘(DataMining)定义
数据挖掘就是从大量存储的数据中,利用模式识别、统计和数学的技术,筛选发现新的有意义的关系、模式和趋势的方法。就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它主要依靠人工智能、机器学习和统计学技术,对数据进行归纳推理,从中挖掘出潜在的模式,预测未来趋势,为决策提供支持。
2.2数据挖掘的主要任务
(1)关联分析。两个或两个以上变量的取值之间存在的规律性称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分析的目的是找出数据库中隐藏的关联网。
(2)聚类分析。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。
(3)分类。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息。
(4)预测。预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。
(5)时序模式。时序模式是指通过时间序列搜索出的重复发生概率较高的模式。它是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
(6)偏差分析。在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
2.3数据挖掘对象
根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。
2.4数据挖掘技术实施的步骤
(1)确定业务对象。清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有评价,并以用户能理解和观察的方式将发现的知识呈现给用户。
(2)数据准备。这个阶段的工作包括数据集成、数据选择、预分析和转换。要对Web服务器上的数据进行挖掘,必须研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。
(3)数据挖掘。这个阶段就是利用数据挖掘工具对经过转换的数据进行挖掘和发现知识的过程。不同的数据挖掘工具有不同的算法,面向不同的分析需求,并且当具体使用操作时,也在一定程度上受到数据分析人员的思维方式和行为习惯的影响。数据挖掘利用人工智能领域中一些已经成熟的算法和技术。如:人工神经网络、遗传算法、决策树方法、邻近搜索算法、规则推理、模糊逻辑、公式发现等来进行数据的挖掘。
(4)结果分析。论文参考网。数据挖掘的结果由分析人员根据发现知识的领域重要性、可信度和支持度等阀值来对发现结果进行评价,并以用户能理解和观察的方式将发现的知识呈现给用户。通常会用到可视化技术。
(5)知识的同化。将分析所得到的知识集成到业务信息系统的组织结构中去。
3 现代远程开放教育系统简介
远程开放教育系统能实现个性化学习、实时教学、实时考试和智能答疑。为每一个接受网络远程教育的学习者提供个性化的学习进程。能根据与当前学习者相类似的学生的学习模式自动地对其后继知识的学习进行预测以及合理推荐,并对学习者的学习过程进行分阶段的评价,依据其绩效信息动态调整其学习难度、练习与测试内容,对学生提出的问题实现智能化答疑,对该学习者薄弱环节进行有效指导,做到因材施教和全天候学习。
远程开放教育系统由用户系统、WEB服务器、应用服务器、数据服务器、用户数据库和资源数据库组成。
用户系统用于实现远程开放教育系统的显示功能,其功能是:实现信息的和接受,管理员通过它来实现系统的管理、更新、维护等,主要是通过XML语言和HTTP协议实现WEB浏览器与WEB服务器的链接和信息通讯。WEB服务器用于完成远程开放教育系统的事务处理,用于处理学习过程中的各种事务。应用服务器直接为WEB服务器提供相关服务,处理WEB服务器以及XML文档组成的用户的事务请求信息。论文参考网。数据库服务器用于完成数据处理,为应用服务器提供相关服务,完成数据查询、修改和更新等服务,并把运行结果反馈给应用服务器。资源数据库中主要由远程开放教育系统中要使用的课件库、答疑库、作业库、试题库和必要的超级链接等构成。用户数据库主要用于存储远程开放教育系统中要使用的的注册档案、用户目前的学习内容、学习进展、作业情况和考试情况等信息。
4 数据挖掘技术在远程开放教育中的应用
现代远程开放教育是随着现代信息技术的发展而产生的一种新型教育形式,其基本特征是利用计算机网络和多媒体技术,提供丰富的教学资源供学习者选用,教学形式由原来的以教为主变为以学为主。数据挖掘技术在现代远程开放教育中的应用主要有以下几方面:
(1)在个性化学习方面的应用
由于每个学习者的知识背景、学习习惯和学习目标都不一样,故个性化学习在远程开放教育中就显得非常重要。为了实现此功能,基于WEB的智能远程开放教育系统首先要根据学习者的特点和学习目标来收集学习者的数据信息,然后对收集到的信息进行预处理,再应用一种合理的挖掘算法或综合应用不同的算法,如关联规则分析、聚类和分类技术、统计分析以及时序模式技术等,来处理此数据,最终发现用户的访问模式,但是通过模式挖掘后,生成的规则数目大、表达晦涩且不好用,这时就需要用到智能查询机制、可视化和联机分析等技术对模式进行分析评价,经过模式分析和应用技术处理后,选择一种学习者易于理解和接受的表达方式将知识数据显现出来。利用数据挖掘与学习内容绑定的技术,系统就可以以可视化方式来指导学习者学习和个性化发展,这样系统就实现了个性化学习功能。
(2)在资源库建设方面的应用
资源库建设在整个系统中至关重要,为了建立覆盖面广、功能齐全的资源库,我们就必须编制信息资源目录,征集种类资源信息,并进行资源、资源信息筛选、资源信息整理和存储;同时按学科门类建设积件库。当老师在系统内制作课件,为了有针对性和避免重复,我们可以对所有学习者已选的课程进行聚类,并通过聚类学习算法来自动确定每门课程的类别标记。接着利用数据挖掘中的关联规则,估计出一组相关同位类课程,再利用泛化关联规则,找到其上位类课程,或利用序列模式,预测出与之有关的学生未来可能选择的同级课程,最后围绕学习者的需求权限进行课程设置。
(3)在实时教学方面的应用
在本系统中,由于引入了互联网技术、人工智能技术、数据库技术和知识发现技术,通过机器学习、统计分析等方法设计出了个性化处理引擎,从大量的数据中进行数据挖掘,提取有用的、潜在的信息。学生可以通过网络实现每天24小时的学习,而且本系统可以更多且及时的了解到学生的学习学习进度、需求、能力、兴趣爱好等方面的信息,并动态地根据这些信息调整学习计划和进度,让学生得到针对其“个性”的教育,实现因材施教。
(4)在智能答疑方面的应用
基于WEB的远程教学系统中的智能答疑系统只要用户能上网,就可解答学生在学习过程中产生的问题。它能根据学生用户访问日志、问题记录等数据进行数据挖掘,用智能抽取的方法实现智能答疑。从用户访问日志和提问信息里面可以分析出学生的行为。智能答疑系统后台存储了大量的由经验丰富的教师精心挑选的问题答案,对于用户提出的问题.系统首先通过对问题的分析自动在数据库中寻找最适合的答案。这样通过数据挖掘,针对学生用户提问记录、日志不断更新和调整学生用户知识库,使问题的回答更加精确。
(5)在实时考试方面的应用
本系统的实时考试系统是一个基于数据库和WEB的远程在线式实时的测试系统。它能考虑个别学习者的能力和特性,按照考试的目的和必要性,提供各种问项信息,如难易程度、辨别程度等。并且还能同步打分,提供成绩进展情况,根据个人特性解释问题,按个人及科目对考试结果进行各种统计分析和评价,并存入学生用户数据中。这些功能的实现是由于系统采用关联规则、聚类和分类工具对数据库中抽取的数据进行处理,分析出学生的特性及其对课程各知识点的掌握程度,并结合学生的考试目的恰当地反馈给学生,这样提高了学生学习的效率。
5 结束语
在现代远程开放教育网站设计中,基于XML(ExtensibleMarkup Language,可扩展标记语言)的新一代系统设计环境,可以更好地描述半结构化和结构化的数据,更有利于进行数据搜索和挖掘。如何整合XML和Web服务技术,以此为契机开展数据挖掘和知识获取,在现代远程开放教育网站的设计中以学习者为中心,提供一种基于资源的学习,教学资源可以适应各种学习者的需要和背景进行不同的组合,提供更加优良的、个性化的服务。
参考文献:
[1]李爽,陈丽.国内外网上智能答疑系统比较研究[J].北京,中国电化教育,2003(5)
[2]苏新宁.数据挖掘理论与技术[M].北京:科学技术文献出版社,2003
[3]赵丹群.数据挖掘:原理、方法及其应用[J].现代图书情报技术,2000,(6)
[4]周云真,舒建文,王平根.据挖掘在基于WEB的智能远程教育系统中的的应用[J] .南京:文教资料,2006(10)