时间:2023-04-01 10:29:11
序论:在您撰写数据挖掘技术探讨论文时,参考他人的优秀作品可以开阔视野,小编为您整理的7篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
参考文献:
苏新宁杨建林邓三鸿等:数据挖掘理论与技术[M].北京:科学技术文献出版社,2003
统计学论文2000字(一):影响民族院校统计学专业回归分析成绩因素的研究论文
摘要:学习成绩是评价学生素质的重要方面,也是教师检验教学能力、反思教学成果的重要标准。利用大连民族大学统计学专业本科生有关数据(专业基础课成绩、平时成绩和回归分析期末成绩),建立多元線性回归模型,对影响回归分析期末成绩的因素进行深入研究,其结果对今后的教学方法改进和教学质量提高具有十分重要的指导意义。
关键词:多元线性回归;专业基础课成绩;平时成绩;期末成绩
为了实现教学目标,提高教学质量,有效提高学生学习成绩是很有必要的。我们知道专业基础课成绩必定影响专业课成绩,而且平时成绩也会影响专业课成绩,这两类成绩与专业课成绩基本上是呈正相关的,但它们之间的关系密切程度有多大?它们之间又存在怎样的内在联系呢?就这些问题,本文主要选取了2016级统计专业50名学生的四门专业基础课成绩以及回归分析的平时成绩和期末成绩,运用SPSS统计软件进行分析研究,寻求回归分析期末成绩影响因素的变化规律,拟合出关系式,从而为强化学生的后续学习和提高老师的教学质量提供了有利依据。
一、数据选取
回归分析是统计专业必修课,也是统计学中的一个非常重要的分支,它在自然科学、管理科学和社会、经济等领域应用十分广泛。因此研究影响统计学专业回归分析成绩的相关性是十分重要的。
选取了统计专业50名学生的专业基础课成绩(包括数学分析、高等代数、解析几何和概率论)、回归分析的平时成绩和期末成绩,结合多元线性回归的基础理论知识[1-2],建立多元回归方程,进行深入研究,可以直观、高效、科学地分析各种因素对回归分析期末成绩造成的影响。
二、建立多元线性回归模型1及数据分析
运用SPSS统计软件对回归分析期末成绩的影响因素进行研究,可以得到准确、科学合理的数据结果,全面分析评价学生考试成绩,对教师以后的教学工作和学生的学习会有较大帮助。自变量x1表示数学分析成绩,x2表示高等代数成绩,x3表示解析几何成绩,x4表示概率论成绩,x5表示平时成绩;因变量y1表示回归分析期末成绩,根据经验可知因变量y1和自变量xi,i=1,2,3,4,5之间大致成线性关系,可建立线性回归模型:
(1)
线性回归模型通常满足以下几个基本假设,
1.随机误差项具有零均值和等方差,即
(2)
这个假定通常称为高斯-马尔柯夫条件。
2.正态分布假定条件
由多元正态分布的性质和上述假定可知,随机变量y1服从n维正态分布。
从表1描述性统计表中可看到各变量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的标准差分别为10.847,11.531,8.929,9.018,9.221,y1的标准差为8.141;有效样本量n=50。
回归分析期末成绩y1的多元回归模型1为:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
从表2中可以看到各变量的|t|值,在给定显著水平?琢=0.05的情况下,通过t分布表可以查出,自由度为44的临界值t?琢/2(44)=2.015,由于高等代数x2的|t|值为0.651小于t?琢/2(44),因此x2对y1的影响不显著,其他自变量对y1都是线性显著的。下面利用后退法[3]剔除自变量x2。
三、后退法建立多元线性回归模型2及数据分析
从模型1中剔除了x2变量,多元回归模型2为:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F统计量为90.326,在给定显著水平?琢=0.05的情况下,查F分布表可得,自由度為p=4和n-p-1=45的临界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自变量的|t|值都大于t?琢/2(45)=2.014,因此,多元回归模型2的线性关系是显著的。
四、结束语
通过对上述模型进行分析,即各个自变量对因变量的边际影响,可以得到以下结论:在保持其他条件不变的情况下,当数学分析成绩提高一分,则回归分析成绩可提高0.242分[4-5];同理,当解析几何成绩、概率论成绩和平时成绩每提高一分,则回归分析成绩分别提高0.149分、0.377分和0.293分。
通过对学生专业基础课成绩、平时成绩与回归分析期末成绩之间相关关系的研究,一方面有利于教师把控回归分析教学课堂,提高教师意识,注重专业基础课教学的重要性,同时,当学生平时成绩不好时,随时调整教学进度提高学生平时学习能力;另一方面使学生认识到,为了更好地掌握回归分析知识,应加强专业基础课的学习,提高平时学习的积极性。因此,通过对回归分析期末成绩影响因素的研究能有效的解决教师教学和学生学习中的许多问题。
统计学毕业论文范文模板(二):大数据背景下统计学专业“数据挖掘”课程的教学探讨论文
摘要:互联网技术、物联网技术、云计算技术的蓬勃发展,造就了一个崭新的大数据时代,这些变化对统计学专业人才培养模式的变革起到了助推器的作用,而数据挖掘作为拓展和提升大数据分析方法与思路的应用型课程,被广泛纳入统计学本科专业人才培养方案。本文基于数据挖掘课程的特点,结合实际教学经验,对统计学本科专业开设数据挖掘课程进行教学探讨,以期达到更好的教学效果。
关键词:统计学专业;数据挖掘;大数据;教学
一、引言
通常人们总结大数据有“4V”的特點:Volume(体量大),Variety(多样性),Velocity(速度快)和Value(价值密度低)。从这样大量、多样化的数据中挖掘和发现内在的价值,是这个时代带给我们的机遇与挑战,同时对数据分析技术的要求也相应提高。传统教学模式并不能适应和满足学生了解数据处理和分析最新技术与方法的迫切需要。对于常常和数据打交道的统计学专业的学生来说,更是如此。
二、课程教学探讨
针对统计学本科专业的学生而言,“数据挖掘”课程一般在他们三年级或者四年级所开设,他们在前期已经学习完统计学、应用回归分析、多元统计分析、时间序列分析等课程,所以在“数据挖掘”课程的教学内容选择上要有所取舍,同时把握好难度。不能把“数据挖掘”课程涵盖了的所有内容不加选择地要求学生全部掌握,对学生来说是不太现实的,需要为统计学专业本科生“个性化定制”教学内容。
(1)“数据挖掘”课程的教学应该偏重于应用,更注重培养学生解决问题的能力。因此,教学目标应该是:使学生树立数据挖掘的思维体系,掌握数据挖掘的基本方法,提高学生的实际动手能力,为在大数据时代,进一步学习各种数据处理和定量分析工具打下必要的基础。按照这个目标,教学内容应以数据挖掘技术的基本原理讲解为主,让学生了解和掌握各种技术和方法的来龙去脉、功能及优缺点;以算法讲解为辅,由于有R语言、python等软件,学生了解典型的算法,能用软件把算法实现,对软件的计算结果熟练解读,对各种算法的改进和深入研究则不作要求,有兴趣的同学可以自行课下探讨。
(2)对于已经学过的内容不再详细讲解,而是侧重介绍它们在数据挖掘中的功能及综合应用。在新知识的讲解过程中,注意和已学过知识的融汇贯通,既复习巩固了原来学过的知识,同时也无形中降低了新知识的难度。比如,在数据挖掘模型评估中,把混淆矩阵、ROC曲线、误差平方和等知识点就能和之前学过的内容有机联系起来。
(3)结合现实数据,让学生由“被动接收”式的学习变为“主动探究”型的学习。在讲解每种方法和技术之后,增加一个或几个案例,以加强学生对知识的理解。除了充分利用已有的国内外数据资源,还可以鼓励学生去搜集自己感兴趣的或者国家及社会大众关注的问题进行研究,提升学生学习的成就感。
(4)充分考虑前述提到的三点,课程内容计划安排见表1。
(5)课程的考核方式既要一定的理论性,又不能失掉实践应用性,所以需要结合平时课堂表现、平时实验项目完成情况和期末考试来综合评定成绩。采取期末闭卷理论考试占50%,平时实验项目完成占40%,课堂表现占10%,这样可以全方位的评价学生的表现。
三、教学效果评估
经过几轮的教学实践后,取得了如下的教学效果:
(1)学生对课程的兴趣度在提升,课下也会不停地去思考数据挖掘有关的方法和技巧,发现问题后会一起交流与讨论。
(2)在大学生创新创业项目或者数据分析的有关竞赛中,选用数据挖掘方法的人数也越来越多,部分同学的成果还能在期刊上正式发表,有的同学还能在竞赛中取得优秀的成绩。
(3)统计学专业本科生毕业论文的选题中利用数据挖掘有关方法来完成的论文越来越多,论文的完成质量也在不断提高。
(4)本科毕业生的就业岗位中从事数据挖掘工作的人数有所提高,说明满足企业需求技能的人数在增加。继续深造的毕业生选择数据挖掘研究方向的人数也在逐渐增多,表明学生的学习兴趣得以激发。
教学实践结果表明,通过数据挖掘课程的学习,可以让学生在掌握理论知识的基础上,进一步提升分析问题和解决实际问题的能力。
>> 云计算架构及其关键技术 云计算及其关键技术 云计算及其关键技术问题 探析云计算体系架构及其关键技术分析 云计算及其关键技术研究 网络环境下的云计算及其关键技术 云计算关键技术及挑战 云计算关键技术研究 基于云计算的数据挖掘平台架构及其关键技术研究 云计算的关键技术及其核心问题研究 基于云计算的电力数据中心基础架构及其关键技术 基于云计算的数据挖掘平台架构及其关键技术探讨 浅谈云计算环境下电子文件管理的关键技术 浅谈云计算环境下的体系构架及关键技术 云计算安全关键技术研究 基于云计算的架构和关键技术探讨 云计算的关键技术及发展前景 云计算关键技术及发展现状研究 云计算体系架构与关键技术漫谈 云计算环境下分布存储关键技术解析 常见问题解答 当前所在位置:?fr=ala0_1_1.
[2] (美)MICHAEL MILLER云计算(史美林・译)[M].北京:机械工业出版社,2009年4月.
[3] 王鹏.云计算的关键技术与应用实例[M].北京:人民邮电出版社,2009年12月.
[4] Luiz AndréBarroso, Jeffrey Dean, Urs H-lzle.
Web search for a planet: The Google cluster architecture [J]. IEEE Micro,Mar/Apr, 2003, 23(2): 22 -28.
大数据背景下的机器算法
专业
计算机科学与技术
学生姓名
杨宇潇
学号
181719251864
一、 选题的背景、研究现状与意义
为什么大数据分析很重要?大数据分析可帮助组织利用其数据并使用它来识别新的机会。反过来,这将导致更明智的业务移动,更有效的运营,更高的利润和更快乐的客户。
在许多早期的互联网和技术公司的支持下,大数据在2000年代初的数据热潮期间出现。有史以来第一次,软件和硬件功能是消费者产生的大量非结构化信息。搜索引擎,移动设备和工业机械等新技术可提供公司可以处理并持续增长的数据。随着可以收集的天文数据数量的增长,很明显,传统数据技术(例如数据仓库和关系数据库)不适合与大量非结构化数据一起使用。 Apache软件基金会启动了第一个大数据创新项目。最重要的贡献来自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是复杂数据准备和ETL的旗舰,可以为许多数据存储或分析环境提供信息以进行深入分析。 Apache Spark(由加州大学伯克利分校开发)通常用于大容量计算任务。这些任务通常是批处理ETL和ML工作负载,但与Apache Kafka等技术结合使用。
随着数据呈指数级增长,企业必须不断扩展其基础架构以最大化其数据的经济价值。在大数据的早期(大约2008年),Hadoop被大公司首次认可时,维护有用的生产系统非常昂贵且效率低下。要使用大数据,您还需要适当的人员和软件技能,以及用于处理数据和查询速度的硬件。协调所有内容同时运行是一项艰巨的任务,许多大数据项目都将失败。如今,云计算已成为市场瞬息万变的趋势。因为各种规模的公司都可以通过单击几下立即访问复杂的基础架构和技术。在这里,云提供了强大的基础架构,使企业能够胜过现有系统。
二、 拟研究的主要内容(提纲)和预期目标
随着行业中数据量的爆炸性增长,大数据的概念越来越受到关注。 由于大数据的大,复杂和快速变化的性质,许多用于小数据的传统机器学习算法不再适用于大数据环境中的应用程序问题。 因此,在大数据环境下研究机器学习算法已成为学术界和业界的普遍关注。 本文主要讨论和总结用于处理大数据的机器学习算法的研究现状。 另外,由于并行处理是处理大数据的主要方法,因此我们介绍了一些并行算法,介绍了大数据环境中机器学习研究所面临的问题,最后介绍了机器学习的研究趋势,我们的目标就是研究数据量大的情况下算法和模型的关系,同时也会探讨大部分细分行业数据量不大不小的情况下算法的关系。
三、 拟采用的研究方法(思路、技术路线、可行性分析论证等)
1.视觉分析。大数据分析用户包括大数据分析专业人士和一般用户,但是大数据分析的最基本要求是视觉分析。视觉分析直观地介绍了大数据的特征,并像阅读照片的读者一样容易接受。 2.数据挖掘算法。大数据分析的理论中心是数据挖掘算法。不同的数据挖掘算法依赖于不同的数据类型和格式来更科学地表征数据本身。由于它们被全世界的统计学家所公认,因此各种统计方法(称为真值)可以深入到数据中并挖掘公认的值。另一方面是这些数据挖掘算法可以更快地处理大数据。如果该算法需要花费几年时间才能得出结论,那么大数据的价值是未知的。 3.预测分析。大数据分析的最后一个应用领域是预测分析,发现大数据功能,科学地建立模型以及通过模型吸收新数据以预测未来数据。 4.语义引擎。非结构化数据的多样化为数据分析提出了新的挑战。您需要一套工具来分析和调整数据。语义引擎必须设计有足够的人工智能,以主动从数据中提取信息。 5.数据质量和数据管理。大数据分析是数据质量和数据管理的组成部分。高质量的数据和有效的数据管理确保了分析结果在学术研究和商业应用中的可靠性和价值。大数据分析的基础是前五个方面。当然,如果您更深入地研究大数据分析,则还有更多特征,更深入,更专业的大数据分析方法。
四、 论文(设计)的工作进度安排
2020.03.18-2020.03.20 明确论文内容,进行相关论文资料的查找与翻译。2020.04.04-2020.04.27:撰写开题报告 。
2020.04.28-2020.04.30 :设计实验。
2020.05.01-2020.05.07 :开展实验。
2020.05.08-2020.05.15 :准备中期检查。
2020.05.16-2020.05.23:根据中期检查的问题,进一步完善实验2020.05.24-2020.05.28 :完成论文初稿。
2020.05.29-2020.06.26 :论文修改完善。
五、 参考文献(不少于5篇)
1 . 王伟,王珊,杜小勇,覃雄派,王会举.大数据分析——rdbms与mapreduce的竞争与共生 .计算机光盘软件与应用,2012.被引量:273.
2 . 喻国明. 大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2 012)的舆情模型构建.中国人民大学学报,2013.被引量:9. 3 . 李广建,化柏林.大数据分析与情报分析关系辨析.中国图书馆学报,2014.被引量:16.
4 . 王智,于戈,郭朝鹏,张一川,宋杰.大数据分析的分布式molap技术 .软件学报,2014.被引量:6.
5 . 王德文,孙志伟.电力用户侧大数据分析与并行负荷预测 .中国电机工程学报,2015.被引量:19.
6 . 江秀臣,杜修明,严英杰,盛戈皞,陈玉峰 ,郭志红.基于大数据分析的输变电设备状态数据异常检测方法 .中国电机工程学报,2015.被引量:8.
7 . 喻国明. 呼唤“社会最大公约数”:2012年社会舆情运行态势研究——基于百度热搜词的大 数据分析.编辑之友,2013.被引量:4.
六、指导教师意见
签字: 年 月 日
七、学院院长意见及签字
关键词: 数据仓库与数据挖掘; 研讨型; 教学模式; 教学实践
中图分类号:N42 文献标志码:A 文章编号:1006-8228(2012)12-52-02
Analysis on research-oriented teaching model in data warehousing and data mining
Huang Meili
(Zhejiang Agriculture and Forestry University, Lin'an, Zhejiang 311300, China)
Abstract: As a comprehensive and practical course, data warehousing and data mining is opened not so long ago, so teaching methods of this course for undergraduate students are rarely seen. Based on the characteristics of this course, combined with teaching experience of several years, the application of research-oriented teaching model is mainly discussed and several typical students’ learning outcomes are listed. Finally, some places which need to be cautious are put forward.
Key words: data warehousing and data mining; research-oriented; teaching model; teaching practice
0 引言
20世纪90年代兴起的数据仓库和数据挖掘是数据库研究、开发和应用中最活跃的两个领域。随着其理论及应用技术和产品的不断成熟与发展,数据仓库与数据挖掘不仅成为高等院校计算机专业、信息技术与信息管理类专业硕士、博士研究生的专业课程,而且相继在本科相关专业高年级学生中开设了该课程。
该课程是一门综合性和实践性很强的课程,其内容新且广,对于本科教学有一定的难度。本文针对课程自身特点及高年级学生学习及能力培养需要,结合自身教学实践,探讨以激发学生学习兴趣为着眼点、学生分析解决问题能力培养为目的的研讨型教学模式。
文中章节1具体介绍课程内容、教学过程中存在的问题及研讨型教学模式;在章节2中,以自身的教学实践为例,给出研讨型教学实践效果及该方法应用的注意事项;最后,是结论部分。
1 本科数据仓库与数据挖掘课程教学
1.1 课程教学内容
数据仓库与数据挖掘课程涉及两方面的教学内容:①数据仓库技术和基于数据仓库的联机分析处理应用技术。具体包括数据仓库的基本概念、创建技术和方法、数据仓库的体系结构以及OLAP的基本概念、多维数据库、OLAP的实现技术。②数据挖掘的基本概念、基本方法和基本技术(包括分类、预测、关联、聚类等),以及数据挖掘的应用。
1.2 课程在本科教学过程中存在的问题
⑴ 教学内容不统一
由于该课程是一门综合性很强的课程,涉及到的学科知识很广,加上在本科教学中开设的时间并不长,也没有得到大家一致认可的相应教材供使用,使得开设该课程的不同高校的教学内容与教学重点各不相同,即便是同一学校不同教师对于教学内容的把握上也有很大差异。
⑵ 传统教学方法的不适用性
虽然本课程涉及内容宽泛,而且是在已具备自主学习能力的本科高年级学生中开设的,但是课程的教学方法却多采用传统的以教师讲授为主、学生为辅的教学模式。
从本科教学过程中存在的问题可见:课程授课对象及课程自身的特点,决定了传统教学方法的不适用性[1-3]。因此,有必要探讨新的教学模式在具体教学实施过程中的应用。
1.3 研讨型教学模式
虽然课程涉及到的学科内容广且深,但是对于已学习高等数学,并熟悉数据库知识和具备程序设计能力的高年级学生而言,还是能较好地掌握数据仓库的建模以及经典数据挖掘算法的实现与简单应用。因此,在课程的教学实践中,我们把该部分内容作为课堂教学的重点;对于一些较难的和新的挖掘算法与技术,及其应用和最新发展趋势,则作为学生研讨内容。
作为传统的教师讲解教学模式的有益补充和提高,开展研讨型的教学模式,可以按照如下四个环节开展:
⑴ 教师出题&学生选题;
⑵ 相关文献查阅;
⑶ 报告撰写;
⑷ 课堂汇报与讨论。
第一步,由教师出题,学生选题。在学期初,就由教师给出研讨的主题供学生选择。这样既可以避免学生选题过于盲目,也可以避免最后课堂讨论阶段的研讨内容偏离课程教学主题。
第二步,相关文献查阅。在接下来的课程教学期间,学生除了保证基本的学习内容的掌握之外,还需要利用课余时间,利用各种手段查阅与选题相关的文献,为报告的撰写和汇报阶段做充分的准备。
第三步,报告撰写。经过大量的文献阅读后,学生需撰写文献阅读报告,报告的撰写格式可以参考毕业设计的要求。
第四步,课堂汇报与讨论。在课程后期,教师在每次课堂上抽取一定的时间,供学生课堂汇报,然后其他学生与教师一起针对学生的汇报内容展开讨论。该环节的开展,既开拓了学生的视野,又可以有效地避免部分学习不认真的学生的应付行为。
从教师出题到最后的学生课堂汇报与讨论,每个环节都要求学生的亲自参与。这样,在课时有限的情况下,以研讨型的教学模式开展教学,既可以保证教学内容的讲授,又能使学生主动参与到课堂教学中来,激发了学生的学习主动性,拓宽了学生的视野。
2 研讨型教学实践效果及注意事项
2.1 教学及其效果
我校在大四计算机专业学生中开设该课程。其中,理论32学时,实验16学时,共计48学时。教材采用韩家炜先生编著的《数据挖掘:概念与技术》一书[4]。该教材是得到业内广泛认可的经典教科书,但教材内容偏重理论。为了在有限的课时内,让学生尽可能掌握基本教学内容,使得研讨型教学模式得以开展,我们以李志刚编著的《数据仓库与数据挖掘的原理与应用》作为相关内容的辅助教材[5]。具体地,按如下方式进行。
2.1.1 教学内容及学时分配
教学内容围绕数据仓库与数据挖掘两条主线展开。涉及的相关内容及学时分配如表1所示。
2.1.3 考核方式
期末总成绩=平时成绩25%+文献报告25%+期末卷面成绩50%
在最近两年的研讨型教学模式实践中,我们选出有代表性的学生作品,如表3所示。
2.2 教学注意事项
研讨型教学模式适用于“数据仓库与数据挖掘”课程的教学,但是在相应课程中开展研讨型的课程教学模式需注意以下几点。
⑴ 注意授课对象的选择。文献资料的查阅、文献阅读报告的撰写以及课堂汇报是研讨型教学模式开展过程中的主要环节,而这些环节要求学生所需具备的能力,不适于在低年级学生中开展。
⑵ 注意教学模式的选用。研讨型教学模式不能代替传统的教师讲解的教学模式,而应是两者的有机结合。
⑶ 注意考核方式的改革。研讨型教学模式的开展,除占用一定的课堂教学时间之外,还需要学生花费大量的课外时间用以查阅文献资料、撰写报告等。如果采用传统的以考试为主的考核方式,那么在实践过程中可能会遇到部分学生的抵制。因此,为了提高研讨型教学模式的效果,需要对传统的以期末笔试成绩为主的评价方式进行适当改革,向研讨内容及成果倾斜,以提高学生的积极性。
3 结束语
研讨型教学模式的开展,可以有效地避免传统教学方法下以教师讲解为主,以学生为辅的填鸭式教学模式,较好地解决数据仓库与数据挖掘课程在本科教学过程中遇到的问题。
经过近几年在本科计算机专业毕业班对该课程采用研讨型教学模式的实践表明,该模式的开展不仅有效地激发了学生的学习兴趣,开拓了学生的视野,而且能够很好地为学生的毕业设计环节中有关文献查询、论文撰写及答辩等奠定基础。从列举的近两年的代表性学生研讨内容及成果中可以看到,该教学模式在高年级学生中开展是现实可行的,而且也是有效的。
研讨型教学模式的开展,需要占用一定的教学时间,如何在有限的课时内保证教学内容,并挤出足够的时间开展研讨是教师必须考虑的问题;与此同时,学生为准备研讨内容需要花费大量的课余时间,因此,如何调动学生的积极性也是该模式能否成功应用的关键因素之一。上述两方面的问题,都有待在今后的教过实践中,进一步深入细化该模式,以更好地达到教学培养目标。
参考文献:
[1] 徐金宝.对应用型本科生开设数据挖掘课程的尝试[J].计算机教育,
2007.7:27-29
[2] 胡建军.浅谈数据仓库与数据挖掘的本科教学[J].广西科学院学报,
2007.23(3):209-210,214
[3] 韦艳艳,张超群.“数据仓库与数据挖掘”课程教学实践与探索[J].高
教论坛,2011.1:94-96,99
[4] 李志刚,马刚.数据仓库与数据挖掘的原理及应用[M].高等教育出版
社,2008.
讨论如何在图书馆个性化推荐中应用网络数据挖掘,并具体对社会网络分析的应用进行了深
入分析,提出了具体算法。
网络数据挖掘又称Web数据挖掘,是数据挖掘技术在网络信息处理中的应用,从与网络相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,是从Web网站的数据中发掘关系和规则。其挖掘对象是大量、异质、分布的Web文档,可以对数据库、Web服务器上的日志、读者信息等数据展开挖掘工作。同时,由于Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的,或者是关于用户行为模式的1。通过网络数据挖掘对每个用户的访问行为、频度、和内容等进行分析,能提取出每个用户的特征,给每个用户个性化的界面,提供个性化的Web信息服务。
本文以中国知网(CNKI)总库为统计源,以主题“We数据挖掘”、“网络数据挖掘”搜索到国内近六年的论文数量,从中可以看出相关领域的研究从2007年开始呈逐年上升趋势,2009年达到峰值后,逐年有所下降。具体数据如表2所示:
根据对这些文章内容的分析,研究网络数据挖掘算法及其实现的占大多数,国内关于网络数据挖掘在图书馆的应用研究不多,大多是作为电子商务中数据挖掘研究的一部分。网络数据挖掘在图书馆中的应用主要表现在以下几个方面:
(1)图书推荐系统。这类系统主要通过日志挖掘读者的借阅习惯,推测读者的阅读需求,从而为不同兴趣的读者提供相应的推荐内容。这种个性化推荐系统能够较好地把握读者需求,通过聚类和关联规则为读者推荐借阅过的相似图书或可能需要的其他文献。但它的缺点在于,推荐的相似图书,读者已经借阅过,再借阅的几率不大。因此,这个研究的重点和难点在使用的挖掘算法上2。
(2)网络学习平台。现代图书馆越来越重视读者的学习需求,从而推出各种学习服务3。这类应用主要是针对网络学习中的学习资源的挖掘。因为在图书馆提供的虚拟学习平台中,资源是庞大的,而读者的精力有限,同时每个人的兴趣不同,需要对不同的读者组织不同的教育资源。而网络数据挖掘在其中所起的重要作用就是对读者的借阅和浏览行为进行挖掘分析,根据分析结果为读者匹配学习资源。
(3)文献检索系统。网络数据挖掘技术也常见于文献检索系统的应用中,图书馆资源包含大量的文本、期刊、视频等。读者常常需要通过检索才能获取自己想要的信息,使用网络数据挖掘也是为读者提供高效获取信息的方式。
由以上分析看出,网络数据挖掘在图书馆中应用的主要目的就是为读者找到所需资源,满足读者的个性化需求。下面我们就针对网络数据挖掘在图书馆个性化推荐中的应用进行探讨。
1、 图书馆个性化推荐常用分析方法
1.1聚类算法
通常说来,许多图书馆的读者建模方法是基于统计的,即对所有读者的统计数据(比如基于平均值)进行分析。这样的后果是对读者的个性化行为视而不见,影响了读者专业性和个性化需求,忽略了隐含的读者信息的价值。而读者聚类建模,则是把一类读者聚集起来,分析他们的特性并对这类读者建模,在建模质量相同或接近的条件下,聚类建模所需的数据量将远远低于对单个读者建模的数据量,因为分类中的每个读者(知识背景和生活阅历贡献具有很大的相似度)都贡献了其数据。常用聚类算法如表3。
1.2 社会网络分析
社会网络分析已经有相当长的一段历史了,近60年来,相关研究人员做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg说提出来的HITS算法开创了将社会网络研究应用在Web范畴的先河。这两种算法都来源于社会网络分析,都利用了网页的超链接结构并依据网页的“威望”或者“权威”级别来对网页进行分级排序。这在搜索引擎中得到了广泛的运用。图书馆也同样存在着这样的社会网络关系,这种关系主要通过读者浏览和获取文献行为体现。这种关系和活动可以用网络或图来表示,其中,每一个顶点(结点)用来表示一个读者,而一条边的连接用来表示两个读者之间的关系。利用网络图我们可以研究该网络的结构特征,以及每个读者威望性、中心性等属性。同时从中我们也可以找到各种类型的子图,即社区。
2、 基于网络数据挖掘的图书馆个性化推荐分析
2.1基于K-means聚类推荐分析
图书馆读者聚类可以通过两种方式进行聚类,建立二维推荐模型,即:查询聚类和借阅聚类。在此,只要实现查询信息和借阅信息的高效率、高准确率的自动分类,然后根据读者兴趣模型匹配,就可以完成其推荐过程。自动分类信息可以采用K-均值聚类算法实现,并根据图书馆相关信息结构的特点,对算法本身加以改进。具体流程如图1。
2.2 基于PageRank社会网络分析
在图书馆借阅场景下,读者浏览和借阅行为反应了读者的需求。PageRank算法关键在于测度每个对象的随机访问概率。我们假定读者借阅史就是读者推荐书目单,反应了读者对于图书的认可程度。在此,我们可以把访问概率转化为读者推荐书目单的紧密程度,因此,问题转化为求读者推荐书目单的紧密程度,然后通过PageRank算法,求出读者推荐书目单的权威度排名,进而推荐给兴趣模型相似的读者。
我们用dist(j, t)表示两个读者推荐书目单关系程度,使用其文本相似度 来度量,进而产生新的PageRank2算法。对于每个读者推荐书目单,其重要度PR2(i)可定义为:
其中DIS(j,i)定义为:
在实际应用中,由于某些读者推荐书目单可能与其他读者推荐书目单 值为0,故将公式2调整为:
其中a为衰减系数,设定为0和1之间,其本质是为了消除孤立读者,给每个读者增加一条指向所有其它读者的链接,并且给予每个链接一个由参数a控制的转移概率,在这里我们沿用PageRank中的取值a=0.8570。
3、 结语
本文主要探讨了网络数据挖掘在图书馆中的应用问题,并对于社会网络分析的应用进行了较为深入的分析,提出了具体算法。网络数据挖掘广泛应用于互联网。随着数字图书馆的不断兴起,其在图书馆领域的应用将更加广泛4。但是,图书馆相对封闭的信息环境制约着网络数据挖掘的应用。相信随着Web2.0和读者个性化需求不断得到重视5,数字图书馆技术的不断发展,网络数据挖掘将会发挥更加重要的作用。
参考文献
[1] 马费成,王晓光.信息资源管理研究及国际前沿[J].情报学研究进展.武汉大学出版社,2007.
[2] 刘晓忠.数据挖掘技术在图书馆建设中的应用[J].硅谷,2012(6).
[3]夏南强,张红梅.基于数据挖掘的数字图书馆个性化服务[J].图书馆学研究, 2006, (1):32-34.
【关键词】信息资源管理;研究生教学;财经院校
【中图分类号】G642 【文献标识码】B 【论文编号】1009―8097 (2008) 09―0125―03
信息资源管理(IRM)是为了确保信息资源的有效利用、以现代信息技术为手段,对信息资源实施计划、预算、组织、指挥、控制、协调的一种管理活动[1]。信息资源管理的理论和实践活动及以后信息资源管理类学科之间的集成和整合的需要,导致了一门渗透性很强的横断学科――信息资源管理学产生[2],其内容涉及信息科学、管理科学、数据处理、通信、计算机科学、文献情报学等各个方面。随着全球信息化基础设施建设的热潮,信息资源管理也成为国内外高校开设的一门重要课程。
一 国内外高校同类课程现状
信息资源管理作为一门新兴边缘学科,打破了原有学科界限,具有鲜明的时代特征,作为档案学、图书馆情报学和情报学的一个分支领域,多学科综合性、交叉性等特点是其典型特征[2]。在国外大学,IRM课程多设置在信息科学专业,如美国东北大学,或者图书馆学专业,如威斯康星大学。根据学科专业不同,课程侧重点也有所不同,主要可分为三大方向:信息系统学派、记录管理学派、信息管理学派。
90年代初,中国学者孟广均和卢泰宏等人系统地引入了信息资源管理理论[3]。目前,国内很多高校信息管理专业和图书馆情报学专业都开设了信息资源管理课程,大多都设置在本科专业,也有一些设立了硕士和博士研究方向。大部分还是以传统的信息管理为主线,以理论教育为主导,和企业应用及时代特点结合的较少,教学重点也依专业有所不同。
二 课程教学探讨
1 课程定位
我校自2001年开始开设此课程作为信息学院硕士研究生必修课程。不同于其他高校的信息管理专业和图书馆情报学专业,我校是财经类院校,信息学院硕士方向主要为电子商务、供应链管理、信息管理,是以管理学、经济学为主、信息技术为辅助实现手段的交叉学科,因此我们的IRM课程定位也是多学科交叉,侧重从管理思维及企业应用而不是技术角度,结合当前知识经济时代特征组织课程内容体系、分析讲解问题,和企业市场对具有复合型知识结构人才的需求紧密结合。
2 体系结构
本课程自开设以来,一直由作者承担此课程的教学及相关研究工作。作者在对当前国内IRM教材著作、教学内容深入研究及6年教学实践体验的基础上,结合在美国威斯康星大学图书馆和信息科学学院的交流学习经验,提出了适合本专业方向和学生特点的创新课程体系结构,经过多次教学实践,得到学生的认可。我们的课程体系遵循系统性和创新性原则,在保证教学内容所包含的知识是具有内在逻辑联系的完整知识体系前提下,区别于以传统信息系统管理为主线的内容体系,采用符合知识经济时代特征的体系结构,反映学科领域最新成果,在这里提出来供大家探讨。
(1) 信息资源管理概述:作为整个课程的基础,这部分主要包括数据、信息、信息资源、信息化、信息产业、知识、知识经济、知识管理等概念及其关联,目的是使学生掌握信息资源从产生到利用到再创造的过程。
(2) 知识管理:知识是从相关信息中过滤、提炼、经过人脑加工得到的有用信息,知识管理是现代信息资源(知识资源)管理的核心。这部分主要介绍知识的生命周期;企业知识管理的原因、目的、工具和手段;知识管理的企业实施和应用;知识管理系统方案和技术平台;北京移动、三星等企业知识管理案例分析。
(3) 数据挖掘:数据挖掘是数据库中的知识发现,是从海量数据中抽取出潜在的、有价值的信息、知识,是针对目前企业面对大量杂乱数据无法辨别有价值的资源进行管理,而提出的方法。本部分主要介绍数据挖掘的特点、原由、过程、人员、环境、相关技术;数据挖掘的商业应用;相关软件(重点SPSS系统);数据挖掘与CRM;数据挖掘在证券行业、网络应用、远程教育等方面的应用案例分析。不同于介绍技术和算法为主的数据挖掘课程,本课程重点在于数据挖掘的商业应用,侧重于分析、管理和应用。
(4) 信息资源规划(IRP):IRP是完全中国特色的信息资源管理内容,是指对企事业单位或政府部门所需要的信息资源,从采集、处理、传输到使用的全面规划,是针对于国内信息化建设的总体规划。主要内容包括:信息资源管理基础标准的讲解及应用;信息资源网;IRP在大型企事业单位的实施(四一三三原则);IRP与ERP;IRP2000系统软件介绍;政府信息资源规划案例。
(5) 首席信息执行官(CIO):CIO在企业的角色主要就是对企业的信息资源进行总体规划、协调、管理,因此这部分主要介绍IRM与CIO;中国CIO面临的挑战和机遇;CIO与IRP的工程化方法;CIO与本组织信息化整体解决方案(IT服务链)。
(6) 网络信息资源管理:适应当前网络发展,介绍通过网络如何对信息资源进行更好的组织和管理。主要包括网络信息资源及信息结构;网络信息资源组织;信息结构(导航、标志、检索等系统)设计;网站资源设计原则;案例分析。
(7) 信息资源安全管理:在信息资源的开发、管理和利用过程中,安全问题是一个十分重要的问题,因此本部分主要从管理和技术两方面对信息资源管理中的安全风险及应对措施进行分析,并结合案例介绍对系统进行审计和评价的方法。
3 教学资源
教师注重将所讲授内容体现在教学实践本身,随时随处体现“信息资源管理”观点和方法:利用知识管理理念,整合各方面知识资源,包括各种教材著作、专家渠道、国内外最新研究论文、案例资源等内容,形成资源库。
自课程开设以来,先后使用参考过科学出版社出版孟广均等著的《信息资源管理导论》,高等教育出版社王景光主编的《信息资源管理》,武汉大学马费成编著的《信息资源开发利用》,北京理工大学甘仞初主编的《信息资源管理》,电子工业出版社肖明编著的《信息资源管理》等著作,以及Ricks Betty R & Gow, KAY F. Information Resource Management Cincinnati (Ohio)等国外著作。已有教材都对信息管理学科进行了全面系统的论述,但内容大都比较抽象,理论性较强,多以信息系统论为核心,和现实企业应用及我们专业特点结合不足。因此,教师在教学中,指定其中两本为参考教材,而围绕课程体系的内容主要来自于教师对国内外研究资料收集整理加工后形成的教案、讲义,资料来源大都为排名行业前列的学术刊物、数据库、著名专家。除了理论知识,资源库还纳入不同企业的案例,以及知识案例获取的各种专家渠道。
4 教学方法
结合课程和中国学生特点,教师在教学中注重创新性,借鉴国内外同行的经验,及时引入先进的教学理念和方法手段,采用整合的教学方式“课堂讲授+案例分析+Leading Discussion+小组讨论/作业”相结合,目的在于尽量激发学生主动学习的愿望和能力,区别于以往“高级本科生”似的研究生教育方式。
(1) 教师的课堂讲授主要在于让学生了解知识课程体系结构及关键知识点,特别是重点和难点,引导学生把点串成线,配合阅读资料和案例,进而使知识面立体化。
(2) 案例分析,主要是教师通过企业渠道获得并整理内容详实的企业案例,把理论知识融入到企业实际应用中,加深学生对理论和实践如何结合起来的理解,弥补学生由于条件所限无法亲自参与重要的企业实践环节的缺口。
(3) Leading Discussion是教师借鉴美国大学研究生课程教学方法所得,培养学生独立深度研究分析能力。由于课程内容比现有教材更新,涉及范围更广,仅靠教材难以获取足够知识。教师定期提供国际上较新的研究论文,课下每位同学独立阅读并总结出不超过一页纸的summary,提出2-3个针对性问题。课堂上每次轮流由不同学生主持leading discussion对论文进行分析讨论,并回答问题。这种方式有助于学生开拓视野,了解国际最新动向,督促其主动学习、思考、沟通能力(这正是中国学生普遍缺乏的),还能提高专业英语阅读理解归纳能力和阅读速度。
(4) 小组讨论/作业主要是教师提供案例内容框架及引导问题,学生分组讨论不同案例(课堂或课下,视时间而定),鼓励brain storming,以PPT形式进行课堂演示,实现知识资源共享。最后教师对各组案例分析就行评价总结。
全程采用多媒体教学,教学中始终贯穿着启发式、引导性和参与性的理念。启发式教学:启发学生通过以上各种方式实现自我学习、自我教育,克服教师满堂贯、填鸭式的教学方式,注重研究生教育和本科教育的区别。引导性:教师在教学中先引入问题,积极启发学生主动思考,而不是被动接受灌输;引导学生探索性阅读,进入学术研究领域。参与性:鼓励学生主动参与教学环节,师生互动、教学相长,调动学生学习的积极性和主动性。
5 考核
为体现课程的多学科交叉性、复合型知识能力特点,课程采用多形式考核方式,重在考察学生对企业实际问题分析、提出解决方案的能力,以及此过程中对现代IRM管理理念和知识的理解应用和渗透。在强调“开卷+闭卷”传统考试形式基础之上,将参与讨论、案例分析、Leading Discussion、论文撰写、企业调研、小组作业等综合起来全面考察学生学习情况,这种“非概念记忆”的能力考核方式进一步调动了学生主动学习的积极性和创造力。
三 结言
经过多次教学实践不断改进,教学内容体系和方式方法得到了专家及学生的一致认可:普遍认为课程内容新颖全面,反映信息资源管理领域的最新发展和趋势;国外资源丰富,与国际学科发展接轨;高质量案例的引入恰当充分,和实际企业应用相联系。教师在讲授中补充很多专业领域最新的知识,扩展学生知识面;注重关键知识点的掌握,培养学生独立思考和判断、分析、解决问题的能力,非常适合财经类院校研究生阶段教学的特点。
在教学中,我们也注意及时发现总结问题,充分意识到不足和需要改进之处:
1 教学中很多内容都超出现有参考教材,因此需要将教学内容资源整合成更加系统全面的教材,供学生参考。
2 对于一些最新的较为抽象的内容,以及一些专业术语,还需进一步增加关联性更强的实例,更加深入浅出的进行讲解,让学生更容易理解。
3 信息和网络时代,知识及企业应用的更新频率都在加速,需要及时更新资源库以和现实世界发展保持同步,如何追踪最新的知识资源、企业实践和专家渠道是很大的挑战。
信息资源管理课程是知识经济时代新兴的一门重要课程,教学体系、方法发展还不完善。在北京召开的北京高校信息资源管理专业高级研讨会上,大家也一致认为信息资源管理这门课程的教材的内容和教学方法需要进一步改革。本文提出了适合财经类院校研究生的教学内容体系和教学方法设计,供开设此课程的高校教师探讨,并希望能有一定的启发借鉴作用。
参考文献
[1] 王景光.信息资源管理[M].高等教育出版,2002.12.