时间:2023-07-28 16:33:42
序论:在您撰写统计学的分析方法时,参考他人的优秀作品可以开阔视野,小编为您整理的7篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。
1.教学课程缺乏
2011年统计学专业才作为一级学科在研究生专业中开设,统计硕士的教学尚未形成体系。统计学专业在研究生专业中的开设历史短,各大高校对统计学的学科建设及各个研究方向的培养计划还不够完善,导致教学模糊。课程安排也存在不合理的地方,统计硕士必须具有扎实的统计基础才能更好地从事统计的研究工作。统计学专业的学习要求学生的数学基础及数理统计基础较好。统计硕士的培养计划中,专门培养统计能力的课程较少,其余多是根据每个导师所研究的领域安排的课程,与统计直接相关的课程尤为缺乏。
2.教学形式单一,缺乏实例
随着社会的进步,统计学的知识越来越丰富,统计学的应用越来越广泛,但统计硕士的教学形式却还很单一。统计硕士教学多是板书或是通过多媒体教学,大部分课程都是老师讲、学生听,只有极少数的课程由学生讲解或讨论。这些少数的课程是不同研究方向的课程讨论,加深了学生在自己研究领域的知识领悟,但统计学基础知识并没有巩固。统计学是一门综合性学科,它的应用范围几乎覆盖了科学的各个领域。统计学应用广泛,通过各种软件来实现取据的分析。高校开设的软件课程一般包括SPSS、Matlab、R软件等,掌握这些软件最好的方法就是在实际中来运用。教学实例的欠缺,让统计学专业的硕士研究生在学习或应用统计知识时困难重重。
二、方法建议
1.合理规划研究方向
目前统计学硕士教学中存在统计学各研究方向教学模糊。合理地规划各个研究方向及培养计划是培养统计硕士的基础。如今统计学渗透于各行各业,社会科学、自然科学都离不开统计学知识。统计学研究方向的划分,需要结合统计学实际的运用及当前的研究领域。不管研究方向如何设置,都要着眼于统计学的基础知识及与之相结合的学科,例如教育统计,应该结合统计知识与教育学的知识,而不是单方面的教育或统计知识,统计学的作用就是运用统计知识处理解决其他学科的实际数据等问题。
2.适当增加教学课程、教学实例
研究生的课程较少,统计学更需要掌握好理论知识再运用于实践。增加统计学的基础课程,增设统计学学生都需要学习的课程,加强统计学知识的学习。统计学是研究搜集数据、分析数据并通过分析数据的结果正确地推断出某种现象规律的科学。统计学教学与实际例子密不可分,增加教学实例不仅能加强专业方向的研究,还能引导学生深入研究以及加强对统计学专业知识的灵活运用。
3.采用多元化教学
统计硕士的教学存在教学手段单一的问题,多元化的教学手段是改变目前教学单一的一种方式。通过数据收集,根据所学统计知识运用统计软件分析,最终得出结论及提出建议。在分析数据的过程中不仅学会运用,而且加强知识的理解和记忆。除了统计软件的教学,学生还可通过感兴趣的实际案例来学习掌握知识。学生讲课的形式也是一种可采用的教学方式,学生提前准备要讲的内容。多元化的教学方式不仅能加强学生的学习兴趣,而且能让学生更好地掌握知识。
三、结束语
Statistical and Machine
Learning Approaches for
Network Analysis
2012,344p
Hardcover
ISBN9783527331833
M·德默等编
图形结构被用于计算机可以识别的结构信息时,对图形信息进行统计分析就成为可能。生物信息学、分子与系统生物学、理论物理、计算机科学、化学、工程等多个领域都在利用这一特点充分发挥计算机在分析和统计方面的优势。本书的一个重要特点就是将诸如图论、机器学习及统计数据分析之类的理论相互结合,形成一个新领域,以交叉学科的方式探索复杂网络。基因组、蛋白质,信号以及代谢组学数据的大规模生成使得复杂网络的构建成为可能,它为理解生理学以及病理学状态的分子基础提供了一个崭新的框架。网络和基于网络的方法用于生物学中以便表征基因组、遗传机理以及蛋白质信号。疾病被看作关键细胞网络的异常干扰。如今,在对诸如癌症、糖尿病等的复杂疾病的干预中,就使用网络理论来分析。
本书共有11章:1.重构及划分生物网络计算方法概论; 2.复杂网络入门:度量、统计性质及模型; 3.进化中的生物网络建模; 4.内含动力学的生物网络的模块性配置; 5.统计概算机对管理网络大规模因果推理的影响; 6.加权频谱分布:网络结构分析的度量; 7.进化中的随机二部图的结构; 8.图形内核; 9.用于早老性痴呆病的基于网络的信息协同分析; 10.结构化数据中基于密度的集合枚举; 11.采用加权图形内核的下位词析取。
本书第1主编是奥地利健康与生命大学生物信息学和转化研究所所长,他在生物信息学、系统生物学和应用离散数学领域130篇。他是Wiley出版的《复杂疾病医学生物统计学》《复杂网络分析》和《微阵列数据分析》等书的合作编者。
本书可用作应用离散数学、生物信息学、模式识别、计算机科学专业跨学科研究生课程的补充读物,对于这些领域的研究人员和专业人员,也是一本有价值的参考书。
胡光华,退休高工
(原中国科学院物理学研究所)
【关键词】统计学、教学方法方差分析(ANOVA)莱文方差等同性检验
一、引言
方差分析是一种常用的统计分析方法,属于统计学教学中的重点和难点之一。从统计方法上课,方差分析是较为复杂的一种假设检验的方法,回归分析的结果中也涉及到方差分析的内容,所以对学习统计学课程的学生来说,正确理解和掌握方差分析的思想和原理显然非常重要。但从授课教师的角度,一些教师往往会发现方差分析的内容不好讲,也讲不好,无法让学生较好地理解方差分析的原理。本文基于笔者多年统计学课程教学的经验总结,围绕方差分析的概念、原理和前提条件等教学内容,与同行探讨教学方法。
二、方差分析的概念
方差分析(AnalysisofVariance,缩写为ANOVA),是由英国统计与遗传学家,现代统计科学的奠基人之一,R.A.Fisher发明的,用于检验多个总体均值是否全相等的一种统计推断方法。例如,一个国家不同地区的成年男性平均身高是否相等呢?对于该问题的分析就可以使用方差分析的方法。假设该国分为北部、中部和南部等三个区域,成年男性平均身高分别用来表示,则相应零假设和备择假设为:
H0:μ1=μ2=μ3H1:μj不相等,j=1,2,3
如果最后零假设无法被拒绝,可以得出三个地区成年男性的平均身高不存在显著差异,即地区因素对身高没有影响;反之,如果最后拒绝零假设,从而支持被择假设,则可以得出三个地区成年男生的平均身高存在显著差异,至少有一个地区的平均身高与另一个地区不一样,说明地区因素对身高有影响。因此,方差分析也可以用于研究一个自变量(通常为分类变量)对别一个变量(数值变量)是否有影响的问题。如果只涉及到一个自变量,该方差分析方法称为单因素方差分析,涉及两个自变量则称为双因素方差分析。本文主要围绕单因素方差分析的教学。方差分析的名称容易造成学生的误解,使一些学生误认为方差分析是比较多个总体方差。其实,方差分析是用来比较总体均值是否相同的,但由于使用计算“方差”的方法,故把该方法称作方差分析。
三、方差分析的原理
为了比较多个总体的均值是否相等,方差分析将通过计算样本数据的方差大小进行判断。假设在北部、中部和南部分别随机、独立地抽取一定样本容量的样本,这里为了便于分析,从三地分别抽取3名成年男性,样本容量为9,并记录身高的样本数据,如下图所示。
方差分析就是比较样本数据中北部、中部和南部这三组数据的组间方差和各组数据的组内方差的大小,并构造F检验统计量进行检验。组间方差度量样本数据中组与组之间的变异,从数据结构的角度看表现为数据的横向差异。造成组间数据变异有两个因素,一个是地区因素,另一个是随机因素。组内方差度量样本数据中各组内部的数据变异,是由于抽样的随机性导致,表现为数据的纵向差异。如果组间数据的方差明显地超过组内数据的方差,很可能表明地区因素会显著影响成年男性的身高,从而不同地区成年男性的平均身高存在差异。
为了计算组间方差(MSA),需要先求组间平方和(SSA)和相应的自由度(C-1),其中C为组数,这里为3。组间方差等于组间平方和与相应自由度的比值。
MSA=
组间平方和用每组的均值与所有数据的均值之差的平方再乘以该组观测值的个数来表示。组间平方和越大,说明各组之间的数据差异越大,当然如果组数越多组间平方和也会越大,因此这里不用直接用平方和直接进行比较。
为了计算组内方差(MSW),需要先求组内平方和(SSW)和相应的自由度(N-C),其中N为所有观测值的个数,这里为9。组内方差等于组内平方和与相应自由度的比值。
MSA=
组内平方和用每组的观测值与该组数据的均值之差的平方和来表示。组内平方和越大,说明各组内部的数据差异越大,当然如果各组的观测值越多,则组内平方和也会越大。
有了组间方差和组内方差,就可以造成出F检验统计量,再与临界值比较,可以就以做出统计决策。
FSTAT=
其中,服从分子自由度为C-1,分母自由度为N-C的F分布,其临界值可以在指定显著性水平下通过查表获得。
在样本量较大情况下,手工计算显然耗时耗力,方差分析的相关
算一般需要通过统计软件来完成。以下是用EXCEL进行方差分析的输出结果。
EXCEL共输出2个表格,第一个表格是对样本数据进行描述分析,从中可以发现各组观测值的个数、均值和方差。第二个表格为方差分析的结果。方差分析把数据的差异区分为组间差异和组间差异,SS为平方差,从表中可以SSA=0.020,SSW=0.018,df为自由度,组间平方和对应的自由度C-1=2,组内平均和对应的自由度为N-C=6。MS为均方,组间均方MSA=0.010,组内均方MSW=0.003。F为检验统计量,其值为MSA/MSW=3.307。在0.05显著性水平下,F的临界值约为5.14。如果使用P值法进行假设检验,EXCEL也给了相应的P值,约为0.108。根据EXCEL单因素方差分析的输出结果,不管使用临界值还是P值法,在0.05的显著性水下,我们都可以得出不拒绝零假设的结论,即三个地区成年男性的平均身高不存在显著差异,同时也表明地区因素没有显著地影响成年男生的身高。
四、方差分析的前提条件
在统计方法的教学过程中,都要强调使用某种统计方法的前提假设条件,如果条件满足,就不能使用相应的统计方法。在方差分析的教学过程中,同样需要强调方差分析的三个前提假设,即样本是随机、独立抽样的,每个总体是正态分布并且方差相等。其中抽样的随机性和独立性相對容易做到,总体是否为正态分布可以通过直方图等方法进行判断。最后总体方差相等是一个非常重要的条件,如果该条件不满足,就不能进行方差分析。如果各总组(各组)本身方差大小存在显著差异,就不能从数据中发现由于地区因素造成的数据变异到底有多大。关于总体同方差假设是否成立可能用莱文方差等同性检验来解决。
莱文方差等同性检验第一步是对各组样本数据排序,找中位数;第二步计算各组观测值与其中位数之差的绝对值;第三步对绝对值做单因素方差分析;第四步得出结论。
根据莱文方差等同性检验的EXCEL输出结果,可以得出三个地区成年男性身高的方差不存在显著差异,可以进行方差分析。
【关键词】医学统计学方法;管理;医疗资源;策略;效果
随着国民经济水平的增长,医疗行业也呈现欣欣向荣的势态发展。在医院建设发展以及日常管理中,医疗资源是最重要的部分,尤其是医务人员、医疗设备等等。很多医院正是由于医疗资源的管理方式欠缺妥当,导致了医疗资源分配不合理,对医疗卫生服务的正常开展造成了严重的影响[1]。如何采取有效的管理方式提高医疗资源的管理水平和医疗资源的利用率是医院发展和管理中不懈努力的目标。医学统计学正是在这一背景下研究的一种新型医疗资源管理方法。鉴于此,本文就运用医学统计学方法管理医疗资源的策略和效果进行简单的论述。
1资料与方法
1.1一般资料选取我院2009年12月——2012年12月间信息系统数据库中的所有医疗资源相关记录进行统计分析,主要包括人力资源配置、患者情况、床位数设置等等。
1.2数据处理将本次统计调查的实验数据均录入SPSS17.0软件包进行统计学分析,计量资料以均数±标准差表示,以P
2结果
2.1人力资源配置通过统计我院2009年12月——2012年12月间的医生、护士人员情况,并与床位计算比例,最后与国家卫生部颁布的床位和医生比例发现我院计算所得的数据偏低[2]。由于我院还担任有临床教学任务,在人力资源职务分配上面,一些医务人员不仅要负责临床诊治,还要进行教学工作,这就大大增加了医务人员的工作量和工作压力。因此人力资源欠缺是首要问题,需要扩大医务人员队伍;另外是在科室分配方面欠缺妥当,一些科室的患者多、疾病复发,而一些科室的患者少、疾病简单,在人力资源分配上面有点一概而论,使得一些资历深、技术水平高的医师无法充分的发挥其技术,而在患者多、疾病复发的科室又欠缺资历深、医疗技术水平高的医师。经过统计学方法分析发现,在神经内科的医师偏多,尤其是资历深的医师;而一些新成立的科室则欠缺资历深的医师。通过统计学方法计算出各科室合理安排医师情况最终进行了适当的调整。
2.2床位管理我院在近几年均进行了床位扩大,但是患者的数量在不断增多,且增长的速率超过了床位增长率。因为床位依然不够,时常出现床位紧张的情况,通过统计学方法计算出了按照标准情况欠缺的床位数量并进行了补充;另一方面是科室的床位分配不合理,一些科室的床位比较充足,一部分科室床位比较欠缺[3],通过统计学分析出了床位合理分配数量,最终对各科室的床位分配进行了调整。
2.3患者情况根据统计学的计算结果显示我院在患者的来源方面存在不合理的地方,比如下乡、义诊等活动的时间安排、医务人员数量、活动范围等方面欠缺妥当。根据统计结果我院对下乡和义诊活动进行了调整,增加了在住院患者分布少的地区开展义务扶贫、义诊等活动,并结合着患者的情况和医院的条件开设绿色通道,为患者提供优质服务,减轻患者的医疗经济负担,指导患者了解健康知识,免费为患者发放部分药品等等,以此解决了部分患者因为经济困难无法就医的问题,同时也提升了患者对医院的形象以及我院的知名度。
3讨论
医疗资源的合理分配是提高医院管理效率的重要手段。通过本次调查发现,在医院的日常管理中由于各种原因使得医疗资源配置存在诸多问题,最主要的床位数量不够、医护人员不足等等,在医疗资源的分配上存在很多不合理的地方,比如资源分配不均匀等等,通过运用医学统计学方法管理后这些问题得到有效的解决。由此说明,医学统计方法管理是一种有效的管理方法,它能够有效的改善医护人员人手不足、医疗资源分配不均匀等问题,提高医疗资源管理和分配的有效性,因此医院在日常工作开展和管理中应充分的运用这一管理技术,以此来提高医院的管理水平、从而提高医院和社会的效果,促进医院乃至我国整个医疗卫生事业的发展与进步。
参考文献
[1]邓洁,张世庆,王永清.从医学统计学角度评价医疗器械临床试验[J].透析与人工器官,2009,04:20-24.
关键词:统计学;定量分析,应用;
一、定量分析的理解
定量分析方法这一概念出自分析化学,是指对化合物或混合物组分的相对比例进行测定。定量分析方法是自然科学的一种基本方法,从哲学的角度看,社会科学和自然科学在方法论上是相通的,科学的发现遵循相同的逻辑和过程,两者有时可使用相同的手段,只要对人类社会的研究采用了科学的、可靠的、能够重复和检验的方法,那么这种研究所获得的知识也是科学。当代自然科学普遍使用实证、推理的研究方法。首先提出假说,然后尝试用经验性的证据来验证。量化是自然科学研究的基本特征之一,而定量分析(qMantitative analysis)是分析一个被研究对象所包含成分的数量关系或所具备性质问的数量关系;也可以对几个对象的某些性质、特征、相互联系从数量上进行分析比较,研究的结果也用“数量”加以描述。
二、定量资料分析的方法的应用
1、国防方面 在国防经济学研究中,将军事学、经济学、系统科学,现代数学、统计学和计算机技术结合起来,共同研究国防经济现象的数量表现。而运用统计学中定量分析方法,可使国防经济的研究得到更准确和有效的定性结论,以化人们对国防经济问题的认识,优化相关决策,促进国防经济学的科学化和规范化。经济学中阿罗不可能性定理是用数量化和形式化的分析方法得到定性结论的一个典型,它的理论意义和实际意义都很明显。用系统聚类方法对国防经济、军事格局的研究也具有这样的特点。对国防经济问题进行认识、判断和决策,依赖于对基本情况与基本规律的准确了解和对未来变化的可靠预测,这需要有实用和精密的理论,要求采用定量研究方法帮助提高理论的准确程度和实用程度。例如,国防经济学家认为,一国国防经济实力的强弱是决定一国地位的重要因素之一,这里的强弱应该是一个相对量。国防经济实力的对比是更为重要的因素,而要对国家之间的国防经济实力进行对比,就需要进行定量分析和比较。否则,这种比较就成为主观的和无根据的东西。运用定量分析的方法还可以使国防经济学科走向成熟,有利用开阔研究人员的视野和方法,拓宽国防经济的研究领域。
2、医学方面 定量资料是医学科研及论文中涉及较广的一类资料 ,其定义为测定每观察单位某项指标的大小而获得的资料 ,其变量值是定量的 ,正确合理地选用定量资料的分析方法关系到论文及科研成果的科学性与严谨性,可以使医学更明确快速的发展,。
3、旅游方面 对旅游资源进行必要而准确的定量分析,不是可有可无,更不能随心所欲(或者凭长官意志)。在整个社会所处于的市场经济中,旅游文化市场是一个特殊的市场,它有着本身所固有的不以人的意志为转移的活动规律。对现今社会,旅游资源的定位分析是从客观方面所作出的价值判断,而我们需要对他作出的定量分析,就是从主观方面的一种价格定位,也就是可以进入旅游市场的文化产品作出明确的、可以浮动的价格审定。通过定量资料分析,得出具有主导性的清晰、明确的认知之后,才能根据结果发掘出更好更有潜力的旅游资源。
4、市场营销方面 为顺应市场竞争形势的改变,越来越多的企业认识到精确营销的重要性,而实现精确营销目标的前提是对市场做出精准的认识和判断,因此市场研究也就越来越为现代企业所依赖。统计分析是认识事物的重要工具,一旦有效地运用于市场营销就会为营销决策者提供精准指导。因此,有效的将定量资料分析运用到市场营销中并分析得出准确清晰的分析判断,是顺应现代市场形势变化的必要条件。
5、教学方面 随着我国经济、政治、文化等各方面改革的深入展,高等教育在社会中的作用日益突出,高教研究逐步受到重视。但高等教育学是一门实践性很强的学科,光有理论还不足以学有所用同时还要有教育实践。高等教育研究采用多学科的研究方法就是把多种学科领域中的基本理论和方法作为工具来分析和表述在教育理论和实践中的问题。将统计学的相关理论应用在高等教育中的一个比较特殊的教学实践中,用定性研究与定量研究相结合的方法来探讨差异素质学生的教育,为如何因材施教提供方便的方法。
6、市场服务方面 服务行业的质量提升涉及方方面面,量化指标是改进工作中的基础组成部分,对服务时限的控制又是其中的重要一环,因为在业内人士中流传着一句谚语:迟到的服务就像是雨过送伞。养成以客户为导向、以数据分析为手段的理念对我们寻找影响服务过程质量的关键因素来说意义深远。市场经济下,市场竞争实际上是人才的竞争。通过定量分析数据得出加强专业人才的教育和培养的方式,为服务业的发展提供智力资源,建立完善的人才培养和引进机制,大力培养复合型人才,努力提高其综合素质,提高服务业的经营管理水平。
7、投资与能源消耗方面 改革开放至今,我国经济取得了巨大成就,但粗放型的增长方式造成了高投入、高消耗、低能源利用率、低产出的现象。国家提倡节能减排,必然会要求对能源的需求量下降,从而会放缓经济的增长速度。通过利用定量资料的分析,可以对我国GDP与能源消耗、投资长期均衡和短期调整状况进行实证分析,为我国能源政策的制定提供指导,实现节能降耗与经济增长的双赢。
参考文献:
[1]郑学详李剑华.军事经济研究方法[M].解放军出版社,2007.
[2]库桂生. 沈志华.国防经济学[M].北京:国防大学出版社.
[3]孙振球,徐勇勇.医学统计学[M].北京:人民卫生出版社,2002.3.
[4]潘懋元.中国高等教育研究的历史与未来(M).中国地质大学学报(社会科学版),2006(9).
[5]潘懋元.多学科观点的高等教育研究.上海:上海教育出版社,2001.
【关键词】膳食模式;统计分析;心血管疾病
0 前言
膳食因素与心血管疾病发病风险存在密切相关性。迄今为止,针对一种或几种营养素,或某种食物的摄入量与心血管疾病主要危险因素的相关性,已经开展大量研究。然而,人们吃的不是独立的营养素,而是含有多种营养素的多种食物,营养素之间存在复杂的相互作用。因此,针对单一营养素或食物的分析可能存在概念及方法上的局限[1]。
膳食模式分析是将所有食物、营养素作为一个整体进行研究,更接近真实的摄入情况,因此也更有利于对营养相关性疾病的发病风险进行评价。
膳食模式统计学分析方法:
膳食模式不能直接测量,因此,研究人员必须使用相应的统计学方法对收集到的饮食数据进行分析,进而对人群膳食模式予以划分。膳食模式研究方法不断发展,目前,常用方法有三类:先验法、后验法,以及二者的综合运用。
1)先验法
先验法是以现有的膳食指南或其他科学饮食建议为基础,通过将个体的饮食与之比较进行评分,主要包括膳食指数法。常见有:美国农业部门提出的与食物指南金字塔和膳食指南相配套的健康饮食指数(Healthy Eating Index, HEI)[2],Patterson R.E.等以膳食推荐量为基础建立的膳食质量指数(Diet Quality Index, DQI)[3],之后逐步修订发展的修订膳食质量指数(Diet Quality Index Revised, DQI-R)[4]、国际膳食质量指数(Diet Quality Index-International, DQI-I)、中国膳食质量指数(INFH-UNC-CH DQI),何宇纳等以中国居民膳食指南及平衡膳食宝塔中各类食物推荐量为依据建立的中国膳食平衡指数(Diet Baiance Index, DBI)[5],亚太地区食物与营养网络专家委员会提出的理想膳食模式评分法(Desirable Dietary Pattern, DDP)[6]。
2)后验法
后验法是以膳食调查数据为基础,运用统计方法确定膳食模式种类,包括因子分析、聚类分析和潜类别分析等。
因子分析是一种多变量统计分析方法,该方法利用食物频率问卷、膳食日记等调查资料提炼出潜在的维度,即因子/膳食模式。然后计算每一因子/膳食模式的得分,进而利用相关分析或回归分析研究膳食模式与营养相关性疾病的关系。
聚类分析也是一种多变量统计分析方法。与因子分析不同,聚类分析从食物使用频率、供能比、食物摄入量等角度将被调查者分为不同的亚组(类),之后再对不同亚组的特征进行分析。
潜在类别分析是以模型为基础的聚类方法,其目的在于利用潜在类别解释食物摄入变量之间的复杂关联。
3)先验法和后验法的综合运用
综合运用先验法和后验法,主要包括降秩回归法和偏最小二乘回归法,既利用了先验信息,又基于当前的研究,综合了先验法和后验法的优点。
降秩回归是分析膳食模式的一种新方法,类似于因子分析。这种方法是通过建立食物摄入变量的线性函数解释反应变量(如营养素、生物标志物等)的变异,用降秩回归分析法得到的膳食模式可以更好地阐述疾病病因中膳食的重要性[7]。
偏最小二乘回归法是介于主成分分析和降秩回归之间的一个折中方法,通过建立有预测能力的回归模型解释营养素或生物标志物的变异。
1 膳食模式与心血管疾病危险因素相关性研究
早在20世纪80年代初,发达国家就已经开始膳食模式分析。Jean M Kerver等人对美国全国健康与营养调查(NHANES)的数据进行分析,得到西方膳食、美国健康膳食、加州型等膳食模式,发现以红肉及肉制品、高脂奶制品、鸡蛋等为主的西方膳食模式与血清C反应蛋白、血清胰岛素、糖化血红蛋白等心血管疾病生物标志物浓度成正相关,而与叶酸浓度成负相关,说明西方膳食模式是心血管疾病的危险因素。
哈佛大学的Frank B.Hu等人[8]对44875名男性进行了为期8年的队列研究“医务人员随访研究”,得到两种主要膳食模式:精明膳食模式(以大量的蔬菜水果、豆类、全谷类、鱼类、家禽类为主)和西方膳食模式(以大量的红肉及肉制品、精细谷物、糖果和糕点、油炸薯片、高脂奶类为主)。精明膳食模式得分与冠心病发病率的五分位相对危险度由高到低分别为1.0、0.87、0.79、0.75、0.70;而西方膳食模式得分与冠心病发病率的五分位相对危险度由低到高分别为:1.0、1.21、1.36、1.40、1.64。
美国国立肺血液研究所主持的大型多中心试验DASH试验是近年来领域内非常著名的研究[9]。受试者分别使用典型美国饮食、典型美国饮食但增加水果和蔬菜份量、DASH饮食。在每日总热量相同的情况下,典型美国饮食富含脂肪(特别是饱和脂肪)和胆固醇,缺少水果和蔬菜。DASH饮食组则强调增加水果、蔬菜和低脂奶制品的比例,而减少肉类、饱和脂肪和含糖饮料摄入。试验发现,与对照组相比,第二组和DASH饮食组都成功地降低了受试者的血压,且DASH饮食在功效上更胜一筹。
中国人群膳食模式与心血管疾病危险因素相关性研究并不多。现有的膳食模式研究中,研究者更多地对中国人群膳食结构进行分析,评价总体膳食质量,或对不同时期、不同种族、不同社会经济状况人群的膳食质量进行比较。如何宇纳等[10]应用DBI综合评价中国18~59岁成年人的膳食质量。结果表明:中国居民的膳食状况以摄入不足为主,同时也存在摄入过量的问题。城乡间人群的膳食质量存在一定的差异,农村居民摄入不足和摄入过量的程度都大于城市。Stookey J.D.等[11]应用中国DQI对1991年中国健康营养调查中的7450名成年人进行膳食质量评价。结果表明,样本人群膳食质量存在的最大问题是钠的摄入量高,钙、蔬菜和水果摄入量低,食物多样性差;且中国DQI总分与食物及营养素摄入、城乡、收入及体重状况均具有相关性。另外,有研究者应用因子分析得出3种膳食模式,并与4种慢性病(肿瘤、糖尿病、高血压、心血管疾病)的患病风险进行相关性分析,结论是慢性病患者更有可能食用蔬菜类为主的膳食,而不是水果类或肉类为主的膳食[12]。也有研究者采用主成分分析法提炼出肥胖与高血压患者的主要食物种类[13],但并没有对膳食与肥胖或高血压患病风险的相关性作进一步的研究。
2 结语
膳食是一种复杂的暴露变量,需要从不同角度考察膳食与心血管疾病危险因素的关系。膳食评价方法从最初的营养素、食物组单一指标,到营养素和食物组的简单组合,再到综合考虑膳食摄入的充足、适量、多样性以及平衡,已从不同角度反映了人群和个体的膳食质量及存在的问题,进而与心血管疾病危险因素相联系。
目前,中国在膳食模式方面的研究数量有限,心血管疾病危险因素与膳食模式相关性方面的探索也为数不多。因此,研究者应广泛借鉴国外经验,创建并发展适合中国人群的膳食模式研究方法,并在心血管疾病危险因素与膳食模式相关性方面深入探究。
【参考文献】
[1]Hu FB. Dietary pattern analysis: a new direction in nutritional epidemiology [J]. Current Opinion in Lipidology,2002;13(1):3-9.
[2]Kennedy ET, Ohls J, Carlson S, Fleming K. The Healthy Eating Index - Design and Applications[J]. Journal of the American Dietetic Association,1995;95(10):1103-1108.
[3]Patterson RE, Haines PS, Popkin BM. Diet Quality Index-Capturing a Multidimensional Behavior[J]. Journal of the American Dietetic Association,1994;94(1):57-64.
[4]Haines PS, Siega-Riz AM, Popkin BM. The Diet Quality Index Revised: A Measurement Instrument for Populations[J].Journal of the American Dietetic Association,1999;99(6):697-704.
[5]何宇纳, 翟凤英, 葛可佑. 建立中国膳食平衡指数[J].卫生研究,2005;34(2):208-211.
[6]李丹. 理想膳食模式(Ddp):介绍一种评价膳食[J].国外医学:卫生学分册,1992;19(5):282-285.
[7]Tucker KL, Dietary patterns, approaches, and multicultural perspective [J]. Applied Physiology, Nutrition, and Metabolism,2010,35(2):211-218.
[8]Hu FB, Rimm EB, Stampfer MJ, Ascherio A, Spiegelman D, Willett WC. Prospective study of major dietary patterns and risk of coronary heart disease in men [J]. American Journal of Clinical Nutrition,2000;72(4):912-921.
[9]Appel LJ, Moore TJ, Obarzanek E, et al. A Clinical Trial of the Effects of Dietary Patterns on Blood Pressure [J]. New England Journal of Medicine,1997;336(16):1117-1124.
[10]何宇纳, 翟凤英, 葛可佑.应用中国膳食平衡指数评价中国18~59岁人群的膳食质量[J].卫生研究, 2005;34(4):442-444.
[11]Stookey JD, Wang Y, Ge K, Lin H, Popkin BM. Measuring diet quality in China: the INFH-UNC-CH Diet Quality Index[J]. European Journal of Clinical Nutrition,2000;54(11):811-821.
关键词:集成学习;特征提取;Adaboost M1;医学图像分类
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2009)33-9515-03
The Design of Medical Image Classification Based on Ensemble Leaning
LIN Xiao-jia
(Faculty of Logistic and Information Management, Fujian Ineternational Business and Economics College,Fujzhou 350006,China)
Abstract: The paper proposes a medical image classification based on ensemble leaning.The system we proposing consists of a pre-processing phase, a feature extraction phase and a building the classifier phase. On the basis research of single feature, one new method is proposed one kind of medicine image classification new method that synthesized the multi-characteristic merge and the data mining technology. This method is through the introduction of data mining in the concept of Ensemble Learning,utilizing the Ensemble learning method to classify to the single characteristic the weak sorter to carry on the iterative training.
Key words: ensemble learning;the characteristic extraction;adaboost M1;medical image classification
随着计算机医学成像技术的发展,医学影像越来越多样化,医学影像的应用也越来越广泛,与此同时大量的医学设备的应用使得医学影像的数量也越来越多,大量的影像资料使医院迷失在信息的海洋。利用数据挖掘技术可以有效的对医学图像进行组织和管理,合理有效的对其进行分类,从而使其更好的辅助日常的医学诊断和医学研究。
该文提出的方法是使用SVM分类器将整个特征空间分成诸多子空间;采用集成学习方法Adaboost方法对样本进行多次抽样,将Adaboost算法中的分类精度作为特征选择的依据,选取出少量有利于分类的特征,同时将单特征训练得到的弱分类器通过集成学习增强为强分类器。
1 系统的构成
整个系统的构成如图1所示。
该系统主要包括训练和分类两个阶段。在医学图像训练阶段,通过数据库建立训练集,对医学图像进行预处理,提取图像颜色和纹理特征,创建训练的弱分类器。对图像特征进行选择。分类阶段进行的是待分类图像的选择特征的提取,利用训练得到的强分类器进行分类,输出分类结果。
2 图像预处理
由于实际的医学图像数据因为操作的原因,存在不完整性、噪声和不一致性性,不能直接在原始数据上进行数据提取,因此必须对医学图像进行预处理。数据清洗和数据的变换[1-2]都是经常用于图像数据预处理技术上的。
图像预处理的第一步就是图像去噪。大部分的医学图像一般包含了大量有噪声的背景:有的医学图像太暗,有的医学图案太亮,还有来自影像设备中电子元器件的随即扰动。通过去噪处理后,可以去掉图像中的大多数的背景信息和噪声,增强图像的特征,提高图像的信噪比。针对医学图像来说,图像本身有边缘模糊的特性,通过去噪对医学图像进行复原,使之与原图像逼近是存在比较大的困难的。因此本系统主要采取的去噪方法为滤波技术,该技术可以在最大限度保持信号不受损失的基础上,尽可能过滤噪声,提高图像的可读性,将医学图像中感兴趣的特征(图像的轮廓和边缘等重要信息)有选择的突出。
图像预处理的第二步是图像归一化,基于图像特征分类主要是对图像特征进行匹配和区分的过程,但是通常情况下待检图像的图库中,图像的大小尺寸并不完全相同,用户所提供的分类例图大小也不完全一样的。在提取图像特征(特别是空间分布特征)时,就有可能存在本身同类的图像所计算出来的特征差别却很大,而不属于同一类的图像由于尺度不同却计算出了相似的特征,进而影响到分类的结果。为了防止这类情况的发生,本分类系统必须首先对图像的尺度进行归一化,即通过对图像的缩放使得图像具有同一尺度256×256,在同一尺度上提取图像特征,从而消除尺度影响,又能够保证图像的整体灰度不变性。通过对大尺度的图像进行尺度归一化之后,按比例进行了缩小,降低了图像特征提取时的计算量,提高了分类速度。
3 基于集成学习方法的特征选择和分类
3.1 集成学习方法
集成学习(Ensemble Learning)是一种新的用来组合的学习器的方法。其主要思想[3]是:通过某种组合方法把一些学习器组合起来,使得集成后的学习器能够表现出比单个学习器更好的性能。狭义的说,集成学习是指利用多个同质的学习器对同一个问题进行学习,这里的“同质”是指所使用的学习器属于同一种类型,例如所有的学习器都是决策树、都是神经网络等等。广义的来说,只要是使用多个学习器来解决问题,就是集成学习[4]。
集成学习从萌芽阶段发展到现在,很多研究者提出了不同的算法。其中研究最深入,最具影响力,应用最广泛的就要算Boosting算法了。在众多Boosting算法中,AdaBoost是Boosting家族中的基础算法,也是Boosting家族最具代表性的算法,之后出现的Boosting家族中的扩展算法都是在AdaBoost算法的基础上发展而来的,对AdaBoost的分析也适用于其它的Boosting方法。因此下面我们以AdaBoost M1算法为例,进行描述。
AdaBoost M1算法用于解决多类单标签问题。每个待分类样本只能属于多个类别中的单个类。AdaBoost M1的基本思想是:首先给定任意一个弱学习算法和训练集(x1,y1),(x2,y2),…,(xm,ym),yi在分类问题中是一个带类别标志的集合,yi∈Y={1,…,K}。初始化的时候,对每个训练例赋予的权重都相同为1/m。接着,调用弱学习算法对训练集进行T次的迭代训练,每次训练后,按照训练结果更新训练集上的分布,对于训练失败的训练示例赋予教大的权重,也就是在下一次迭代训练的时候,更加关注集中对这些失败的训练例进行训练。通过这样的T次迭代训练,得到一个预测函数序列h1,h2,…,ht,其中ht也有一个权重,预测效果好的预测函数的权重较大,预测效果差的预测函数的权重较小。经过T次迭带后的最终预测函数H采用有权重的投票方式产生。
3.2 特征选择和分类
本系统利用训练样本的分类属性,采用Adaboost M1算法同时,对算法进行改进,使算法同时具有进行特征分类性能的评价(特征选择)和SVM分类器的增强的功能:对样本进行多次抽样,将分类精度作为特征对分类性能的判定依据,进行有效特征选择,选取出少量对分类作用较大的特征,同时将单特征训练得到的弱分类器增强为强分类器,使分类器具有较好的分类精度和泛化能力。具体算法思想如下:
1) 在Adaboost M1算法每次迭带训练时候,赋予每个训练例的分配权重 Dt(i)(t表示迭代次数,i表示训练例标号),同时也表明它被分类器选入新训练子集的概率。如果某个样本已经被准确的分类,那么在构造下一个训练集中,它所占的比重概率就会被降低;反之,如果某个样本没有被正确分类,那么它所占的比重就会得到提高。通过这样的方式,Adaboost M1算法就能更加重视那些较困难、更富信息的样本上。
2) 针对Adaboost M1这个特点,我们在选入的训练集上,选择SVM作为弱学习机,针对每个特征维向量进行训练,产生弱分类器,并且计算分类精度,用来衡量该弱分类器对分类的作用程度,精度大的弱分类器表明该特征维向量的分类性能较好,有利于作为有效的分类特征,被选入作为分类特征,经过多次迭代可以得到大部分对分类作用较高的特征,最终增强得到一个强分类器。
改进的Adaboost M1进行特征选择以及SVM分类器增强的算法步骤如下:
输入:训练集 (x1,y1),(x2,y2), …,(xm,ym) ,其中标签yi ∈Y={1, …,k}
特征维向量集{S}
弱学习算法SVM
迭带训练的次数T
初始化:对于i=1,2,…,D1(i)=1/m, Do For t=1,2,…,T //其中T为迭代训练的次数,m为训练样本数。
步骤1 弱分类器学习
根据选择权重Dt(i)进行采样,获得第t次迭代样本集,选取特征子集,学习重采样后的样本集得到弱分类器集合Hrt ,其中Srt是特征子集集合,表示第t次迭代的每个特征维度;Srt是弱分类器集合,是根据Hrt单特征训练出的弱分类规则,r表示特征维度标签号,t表示迭代次数。
步骤2 计算分类精度,选择特征
计算弱分类器在样本集上的误差 在此作为特征子集Srt 有效性的判据,误差越小则此特征子集作用越大,选取误差最小(εt=min{εrt})的对应的分类器为Ht与有效特征向量Srt计算本次迭代得到的分类器贡献权值βt=εt/(1-εt)。
步骤3 更新权重
其中,βt为每次迭代的分类器贡献权值,值由βt=εt/(1-εt)来确定;Dt(i)为每个训练例的分配权重,Zt为标准化常量。
输出:有效特征子集Sr
增强分类器
通过改进的Adaboost M1算法可以得到所选择的特征子集Sr以及增强的分类器Hx。
分类时,只要将待分类医学图像根据有效特征子集Sr进行特征提取,输入增强的分类器集 Hx中,就可得到分类的结果。
4 实验结果及结论
本实验所采用的是医学图像中的CT、MRI和DDR图像,根据医学图像的功能和用途,我们将这些医学图像分为头部(包括中枢神经和头颈五官)、胸部(包括呼吸系统、循环系统)、腹部(包括消化系统)、骨盆(包括泌尿系统)和其他等五大类标签,每类标签60幅(由于CT应用比较广泛,所以选用CT图像40幅,MRI和DDR各20幅),共计300幅图像构成图像库。在测试集和训练集的选择上,采用10折交叉验证的方法。通过训练集最终选取了36维特征向量中的分类性能较高的12维(详细如表1所示)。
分类性能采用敏感度(sensitivity)、特异度(specificity)以及分类精度(precision)三个指标率来衡量:敏感度也称真正识别率,即正确识别该类元组的百分比;特异度是真负率,即正确拒绝不属于该类元组的百分比;而精度就来标记实际属于该类的元组在已分配到该类的元组总数的百分比,表2是本实验的分类结果。
从表2中可以看出,本实验医学图像分类器算法的敏感度、特异性和分类精度都较高,分类识别率和精度平均在83%左右。
分类系统的速度主要取决于特征的提取以及进行分类的运算量。如果将所有特征都运用于分类的话,由于有些特征向量维度对分类贡献不高,对分类效率没有明显的提高,并且也大大增加了特征提取阶段的时间负担。在本系统中仅仅选择了不到1/3的特征,去除了部分对分类效率贡献不高的特征,因此在特征提取阶段速度大大提高了,而且在分类阶段也因为只在有效特征中进行提取分类,速度也有较大提高,表3列出了在 Inter Core Duo processor T2450 2.0GHz、1G DDR内存、VC++6.0环境下本分类系统与其他分类平均分类精度的比较。
本方法比最常见的综合特征分类法在特征提取分类阶段速度上有所提高,但是比起单个特征提取,速度还是比较慢的。但是从表3正确率相比,准确率还是蛮高的,相对的牺牲时间还是值得的。
参考文献:
[1] Maria-Luiza Antonie,Osmar R.Z aiane and Alexandru Coman,Application of Data Mining Techniques for Medical Image[C],Proceedings of the second international workshop on Multimedia Data Mining(MDM/KDD’2001),in conjunction with ACM SIGKDD conference.
[2] Osmar R.Z aiane,Maria-Luiza Antonie and Alexandru Coman,Mammography Classification by Association Rule-based Clasifier[C], MDM/KDD2002:International Workshop on Multimedia Data Mining(with ACM SIGKDD 2002).
[3] Zhou Z-H,Wu J-X,Tang W,Chen bining regression estimators:GA-based selective neural network ensemble.International Joural of Computational Intelligence and Applications,2001,1(4):341-356.
[4] Zhou Z-H,Wu J-X,Tang W.Ensembling neural networks:many could be better than all.Artificial Intelligence,2002,137(1-2):239-263
[5] 夏顺仁,莫伟荣,王小英,严勇. 基于特征融合和相关反馈的医学图像检索技术[J].航天医学与医学工程,2004,17(231):429-433.