欢迎来到优发表网

购物车(0)

期刊大全 杂志订阅 SCI期刊 期刊投稿 出版社 公文范文 精品范文

统计学变量的分类范文

时间:2023-12-16 09:31:19

序论:在您撰写统计学变量的分类时,参考他人的优秀作品可以开阔视野,小编为您整理的7篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。

统计学变量的分类

第1篇

近年来,用户研究已经成为产品设计界的重要研究手段,在产品的进入期、成长期、成熟期甚至衰退期,用户研究都起着至关重要的作用,它可以帮助产品概念的具体化、合理化地符合用户需求,提品功能定义的依据,等等。归根结底,它起到了从用户的需求域(感性描述)到设计的功能域(物理要素)的转换作用,最终帮助设计者获得成功产品所需的要素。

在用户研究的领域里,我们已经有了较为科学的方法来获得需求域中的各类信息数据,而如何将这些信息数据转换成为我们所需要的设计要素则成为研究的重点和难点。用户的需求来源于人,而产品的功能赋之予物,我们需要找到一种方法来发掘这主客体之间的联系,定性定量分析毫无疑问是解决这一问题的必要方法。

二、统计学:定量与定性研究结合

与其他产品设计的单一研究方法不同,在用户研究中,定性与定量分析一般而言是相辅相成的,这样做很好地结合了两种分析各自的长处。定量分析能够发现某个存在的现象,具有很好的说服力和可信性,是对事物“量”的分析,主要通过数据收集和分析来完成。定性研究则可以发掘隐藏在现象底下的规律及原因,具有能够抓住本质的深刻性和高效性,是对事物“质”的分析,主要通过常识、感觉、经验等主观因素来参与分析。

在用户研究中可以直接获取的数据很少,因此定量分析没有施展的空间,并且对于一些感性问题,例如用户的需求、用户的感觉等同样也无能为力。定性分析则受主观因素影响较大,具有不确定性的特点。如何能够很好地发挥定量分析的可信度与定性分析的深刻度是我们所要解决的下一个问题,这里引入统计学的分析方法,将定量与定性分析结合起来。

三、用户研究中的统计学

统计学广泛运用于生物、化学、心理学、社会学、经济学等诸多领域。它被用来了解与测量系统变异性,程序控制,对资料作出结论,并且完成资料取向的决策。而它的这些用途特点非常适合集心理学、社会学、人类学等多门学科交融的用户研究,因此,我们可以通过引入统计学的方法,来对用户研究中获取的信息进行定量和定性分析,从而完成需求域到功能域的转化。

根据统计学的研究特点,我们将其在用户研究中的运用步骤分为信息获取、信息处理、数据分析、数据校验四个步骤。

1.信息获取

用户研究方法有很多,现大多已趋于成熟。我们在确定研究目的与目标的前提下,有意识地选择用户研究的方法,并且明确其输出的数据及形式,为今后的分析做准备。在用户研究中我们可以通过背景资料收集、问卷调查、用户观察、用户访谈、用户角色和用户情境等方法获得大量的文字数据、图像数据、问卷数据、实验数据和语音数据,这些数据都可以通过进一步的处理,转换成统计学中可以运用的数据形式。为了更好地进行下一步的分析研究,要根据用户研究对象的特点将这些信息分为用户基本数据、用户行为数据和用户主观数据。

基本数据主要是指对用户的性别、年龄、职业、收入、教育、地区、家庭结构、生活方式等量化后的数据;行为数据是指用户与产品的交互,即对于产品的使用及体验通过观察测试等方法提取的数据;主观数据是指用户对于产品的满意度、情绪反应、审美反应、生活态度等通过问卷访谈等方式获得的数据。由此我们便获得了计算所需的数据。

2.信息处理

上面我们已经论述了信息获取的方法及信息的分类和特点,但是这些信息的形式如文字、图像、问卷大多都不能直接用于统计学的分析,因此我们要对信息进行处理,也就是信息的量化。

(1)用户基本数据量化

基本数据都属于某种“品质”或“属性”,它们的量化方法可以使用取值为“1”或“0”的人工变量来表示是否存在,也就是对质的因素的判断。如“1”表示已婚,“0”表示未婚。同样有时本身是“数量”因素也可以转化成“质”因素,如“1”表示年收入5万到10万,“0”表示年收入5万以下。

(2)用户行为数据量化

用户行为数据可以通过试验器械的辅助,有计划的观察与测试来获得。主要是行为过程中存在的与衡量目标完成情况相关的变量。这些具体数据的情况与目标有着直接关系,通常可以直接获得具体数值。如时间、频率、数量、周期、步骤等。

(3)用户主观数据量化

用户主观数据主要通过对用户的问卷与访谈得到,是从用户的主观因素出发对用户体验进行量化。在这里,我们可以用数值来表示主观因素的程度,通过这种方法来量化这些主观的、抽象的、感性的信息。如满意程度可以由-3,-2,-1,0,1,2,3这7个数值表示,-3为最不满意,3为最满意。同理抽象感性词汇可以选择一对反义词作为两极,由负值到正值表示符合的程度。如传统和现代、圆润和尖锐等。

此外,为了消除数据计量单位不同的影响,便于数据的直接比较,要对数据进行标准化——使数据矩阵式中每列数据的平均值为0,方差为1;或者规格化——将每列的最大数据变为1,最小数据变为0,其余数据取值在0~1之间。

3.数据分析

在对数据进行必要的处理以后我们就要开始进行统计分析。为了便于介绍统计方法,我们先将处理好的数据分类。在统计学中根据变量数学性质的由低到高可将其划分为:定类数据、定序数据、定距数据和定比数据。定比数据使用较少,此处略。定类数据是一个分类体系,通常将研究对象属性分类后编号,其只能测量类别差。如华中、华北、华东等。定序数据多了类别间顺序等级的信息,可以测量次序差。如幼年、少年、青年、中年、壮年、老年等。定距数据不仅可以测量差别,还可以测算距离,如10秒、20秒、30秒等。

下面介绍在设计领域常会遇到的变量类型之间的关系测量以及相对应的方法类别,具体公式与计算方法可以参看相关统计学书目。

(1)双变量统计

两个变量之间关系的探讨在用户研究中是重要的内容。相关分析是解决这个问题最为常用的统计学方法。判断两个变量之间的关系主要从它们的相关程度、相关正负、相关类型等方面来看,在通常情况下为线性相关,可从相关系数中看出两个变量之间的关系。

①两个定类变量以及定类与定序变量之间的关系可使用相关分析中的λ和τy测量法。λ测量法可以是不分变量与自变量的对称形式。如丈夫购车标准与妻子购车标准之间的关系。τy测量法要求具有自变量与因变量之别,如性别与购车标准之间的关系。定类与定序变量关系也可用此两种系数,如收入水平与购车标准之间的关系。

②两个定序变量之间的关系可以使用Gamma系数和dY系数来表示。例如同等收入水平年龄与购车价格之间的关系。

③定类与定距、定序与定距可采用相关比率测量法。如性别与某手机功能操作次数之间的关系或是年龄与后者之间的关系。除此之外,也可以使用单因素方差分析。

变量之间除相关关系还可以用函数关系来表示,线性回归分析可以测量变量之间的线性关系,它是在研究过程中将一些因素作为所控制的变量(自变量),而另一些随机变量作为它们的因变量来进行分析的。一元线性回归可以用来解决双变量统计问题。

(2)多变量统计

在设计领域中研究的问题影响因素往往较为复杂,在双变量统计不能满足要求的时候我们就要用到多变量统计方法,主要有多元线性回归分析,Logistic回归分析、聚类分析、主成分分析、因子分析等。

①多元线性回归分析。研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式称为多元线性回归模型。它解决的问题是通过抽样调查的数据,确定自变量和因变量之间关系的密切程度;确定多个自变量对应变量的共同影响,比较各个自变量对因变量影响的大小;确定因变量和自变量之间的关系表达式,即回归方程式。如台灯外形表现现代感程度分别与其灯罩、灯颈、灯座造型、材质、色彩的关系,这种方法在感性工学研究中经常使用。

②Logistic回归分析。线性回归模型的一个局限性是要求因变量是定量变量(定距变量、定比变量),而不能是定性变量(定序变量、定类变量)。但是在许多实际问题中,经常出现因变量是定性变量(分类变量)的情况。Logistic回归分析就是用于处理分类因变量的统计分析方法。其因变量只取两个值,表示一种决策、一种结果的两种可能性。如消费者是否购买产品与产品性能、外观、价格、

品牌等因素之间的关系。

③聚类分析。聚类分析是研究“物以类聚”的一种多元统计分析方法。聚类分析的基本思想是根据对象间的相关程度进行类别的聚合。例如可以通过测试者对于较多产品的评价运用聚类分析将产品分别归类。又如通过对消费者生活形态的研究将其分类,有针对性地进行产品开发。聚类分析可用树艺术与设计ˉ形图来表示结果。

④主成分分析。把多个变量(指标)化为少数几个综合变量(综合指标),而这几个综合变量可以反映原来多个变量的大部分信息。为了使这些综合变量所含的信息互不重叠,应要求它们之间互不相关。例如在评价一个产品设计时,往往有很多因素,通过主成分分析可以用少数几个综合因素对其进行评价,减少工作量。

⑤因子分析。因子分析可以看成是主成分分析的一种推广。它的基本目的是,找出隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量(爱好、态度、能力)去解释显在变量(设计成功与否、销售量、点击率)。例如从众多人们显在的生活习惯中找到人们选择使用购买生活用品的潜在因子。这种方法可以应用在用户研究中的生活方式研究之中。

4.数据检验

数据检验其实是贯穿整个计算过程中的,一些计算方法需要检测数据是否适合做此类运算,如回归分析的拟合优度检验,因子分析的KMO检验,而回归分析可以用逆运算进行检验等。当然一般人都会认为数据是客观而准确的,但是准确的数据之后,依赖分析师的常识、经验和主观判断,来选择和运用适合分析方法,并以严谨的研究态度来完成整个分析步骤。

第2篇

Abstract: The variable is in a statistics basic category, but each kind of statistics teaching material is different to its definition, creates the understanding confusion; The author unified the teaching experience to carry on the thorough ponder to the variable concept, caused its better and better by the time.

关键词:变量标志统计指标统计数据

Key words: Variable Symbol Statistical target Statistical data

作者简介:鲁瑜,女,1963年9月出生,讲师。籍贯:安徽省桐城县,出生地:河南省洛阳市。1986年洛阳大学计划统计专业专科毕业,1997年中南财经政法大学财务会计学本科毕业,2007年西安建筑科技大学工业工程硕士毕业。研究方向为统计核算、企业会计。

那么统计学中讲的“变量”该如何理解呢?变量的概念是发展变化的,按发展变化的时序有以下几种理解:第一、统计中的变量是指可变的数量标志;第二、变量是指可变的数量标志和全部统计指标;第三、变量是指可变的数量标志和可变的统计指标;第四、变量是说明现象某种可变特征的概念,更明确一点,即:变量包括可变的品质标志和可变的数量标志和可变的统计指标。普遍的认为第四种理解更符合客观实际,笔者也赞同第四种理解。

一、统计中的变量是指可变的数量标志这种理解较狭隘,通过讲解引入可变的品质标志也是变量,即“可变的标志”都应作变量看待。

一般变量的讲解是这样进行下去的:首先明确统计学中的几个基本概念,三对六个:第一对是统计总体和总体单位,简称总体和单位;第二对是统计标志和统计指标,简称标志和指标;第三对是变异和变量。总体是所研究对象的全体,是由具有某种共同性质的许多个体所构成的整体,构成总体的各个个别单位,简称单位,也称个体,总体和单位的概念是随着研究目的的不同而发生变化的;标志是说明单位特征的名称,强调单位是标志的承担着,指标是反映现象总体数量特征的概念或名称和具体数值(指标名称+指标数值构成完整的统计指标,但只有概念或名称的指标是统计设计和统计理论中使用的指标概念),是综合各单位的某一标志而得到的,通过对指标概念的理解,首先明确指标是说明总体的,其次明确指标都是用数值表示的,没有不用数值表现的统计指标,这是指标和标志的区别之一,由于总体和单位之间存在着变换关系,标志和指标之间也会发生变换;变异和变量,我多年的教学经验通常是通过对标志的分类讲下去的,标志按在总体单位上的表现是否稳定可分为不变标志和可变标志,一个总体中,各个单位的某一标志的具体表现都相同的标志为不变标志(强调同质性),一个总体中,各个单位的某一标志的具体表现不都(尽)相同的标志为可变标志(强调变异性),如人口总体性别是可变标志,男性人口总体性别就是不变标志;可变标志在总体各个单位上具体表现上的差别就是变异,变异有品质变异和数量变异,如人口总体性别就是品质变异,年龄就是数量变异,数量变异也称变量,即可变的数量标志称为变量,变量的具体取值为变量值。很显然,通过以上的讲解,通常认为变量是指可变的数量标志,即第一种变量的概念。

这种理解,未免太过于狭隘。教师若以此思想去指导教学,难免会陷入不能自圆其说的境地。我们知道,一切总体单位都具有属性特征和数量特征,统计学中将其称为品质标志和数量标志。例如人口总体,这些特征可能是性别、民族、籍贯、文化程度,也可能是身高、体重、年龄、工龄等。对统计研究对象而言,无论其属性特征还是数量特征,往往均具有可变性。并且一个具体的特征可能在一种场合是可变的,而在另一场合是不变的。例如,上述所说人口总体性别是可变标志,男性人口总体性别就是不变标志了。可见性别这个品质标志有时也是可变的。推而广之,品质标志也具有可变性。这样,凡是“可变的标志”都应作变量看待。

然而,这只是对总体内部各单位的差异作静态考察时的变量。如果仅仅把变量定义为“可变的标志”,那么可变的统计指标怎么解释?它是否属变量范畴呢?所以,还得对统计总体作考察。

二、变量是指可变的数量标志和全部统计指标这种理解也不准确,不是所有的统计指标都是变量,通过讲解引入可变的统计指标才是变量,即只有“可变的统计指标”才应作变量看待。

统计有数量性、总体性、具体性和社会性的特点(《基础统计》,梁前德主编,高等教育出版社,2000年8月第1版),由统计的具体性可知,统计所研究的社会经济现象的数量方面是具体的量,是具体的社会经济现象在具体时间、地点、条件下的数量表现、数量关系和数量界限。例如,甲公司2005年的销售收入60亿元就是一个统计指标,而且是具体的、唯一的数值。对于2005年的来讲,销售收入这个指标只有一个数字。因而并非所有的统计指标都是变量。但是若把甲公司2005年至2008年的销售收入60万元、69万元、80万元、84万元依次排列,这时销售收入就是一个变量。可见,只有当同一统计总体的同一指标在不同时间的指标数值形成数列时,统计指标才可能成为变量。

因此,从静态上看,某总体的某一统计指标是常量,但把若干总体的同一指标放在一起,指标就变成变量了。例如,以洛阳市为总体时,2005年各公司销售收入指标是各不相同的,它是一变量。从动态上看,我们常常使用时间数列来处理统计数据,时间数列中的指标数值往往随时间变化而变化。如上,这种不断变化的指标也是变量,前后不同的指标数值就是变量值。可见,统计指标也有可变与不变之分,因而,“可变的统计指标”才应看作变量。

上述第二种观点是把全部统计指标视为变量了,但不是所有的统计指标都是变量,只有可变的统计指标才是变量,因而我认为是不妥的。第三种观点倒是把可变的统计指标视为变量了,但未包括可变的品质标志因而我认为也是不妥的。第四种观点我认为比较可取,但在文字表述上还可进一步具体化,由于说明现象某种特征的概念可以是标志(说明总体单位的),也可以是指标(说明总体的),因而我们不妨对变量作如下明确的定义:所有可变标志和可变的统计指标都是变量,即变量是说明现象某种可变特征的概念。

三、变量的分类:

(一)变量按具体表现不同分为分类变量(品质变量)和数值变量(数量变量)。

分类变量是用于说明事物所属类别方面的可变特征的变量,分类变量具体表现为分类数据,它又可以分为定类变量和定序变量。定类变量是用于区分现象不同类别的变量,它的取值表现为定类数据(如产业部门)。定序变量是说明现象的有序类型的变量,它的取值表现为定序数据(如产品的质量等级)。数值变量是用于说明事物数值方面的可变特征的变量,数值变量具体表现为数值数据,按数值数据的性质不同它可以分为定距变量和定比变量。定距变量是用于测度事物次序之间的距离的变量,它的取值表现为定距数据(如考试分数)。定比变量是说明现象的比例数据的变量,它的取值表现为定比数据(如体重)。

(二)变量按所使用的测量尺度不同分为定类变量、定序变量、定距变量和定比变量。

四种变量的概念已如上所述。四种变量对事物的反映是由低级到高级,由粗略到精确逐步递进的,高级变量能转化为低级变量,但不能反过来。如可将考试成绩百分制转化为五分制,但不能反过来。另外,四种变量适合于不同的统计计算方法。定类变量适合计算频数、频率、x2检验、列联相关系数等;定序变量适合计算中位数、四分位差、等级相关、非参数检验等;定距变量适合计算算术平均数、方差、积差相关、复相关、参数检验等;定比变量适合所有的统计计算方法。几乎所有的物理量和绝大多数经济量都属于定比变量。因此,不仅可以计算总量指标反映它们的总规模、总水平,还可以计算相对指标和平均指标反映它们的相对水平和一般水平。

(三)数值变量按变量取值是否连续分为连续型变量和离散型变量。

连续型变量是指可取无穷多个值,其取值是连续不断的,不能一一列举。它是用测量或计算的方法取得的数据,如温度、身高等。离散型变量是指只能取有限个值,而且其取值都是从整数位数断开,可一一列举。它只能用计数的方法取得的数据,如企业数、人数等。

(四)数值变量按性质不同分为确定性变量和随机变量。

确定性变量是具有某种或某些起决定性作用的因素致使其沿着一定的方向呈上升、下降或水平变动的变量,如我国国民经济总是不断发展的,具体表现为各种经济指标数值上升或下降(如人均收入和单位能耗),虽然也有些波动,但变化的方向和趋势是不可改变的,这些经济指标就是确定性变量。随机变量是指受多种方向和作用大小都不相同的随机因素影响,致使其变动无确定方向即呈随机变动的变量,如,在正常情况下某种机械产品的零件尺寸就是一个随机变量。

总之,统计学是一门逻辑严密的传统学科体系,作为统计学中几个基本概念之一的变量应有一个公认的正确的解释。这对今后统计学理论的研究发展都是很重要的。

参考文献:

[1]王军虎主编.统计学基础[M].武汉:武汉理工大学出版社,2007年7月:10

[2]梁前德主编.基础统计[M].北京:高等教育出版社,2000年8月:6~9

[3]高凯平.关于社会经济统计学原理中变量概念的思考[J].山西财政税务专科学校学报.1999(6)

第3篇

【摘要】 目的 探讨累积比数logit模型在有序分类资料中的正确应用。方法 利用在陕西某地开展的一项队列研究数据,分别采用累积比数logit模型和偏比例优势模型进行分析,对二者的结果进行比较。结果 在资料不符合比例优势假定的情况下,直接采用累积比数logit模型不一定合适。结论 累积比数logit模型的应用有一定的条件限制,当不符合其应用条件时,最好采用其他相应方法。

【关键词】 累积比数logit模型; 比例优势假定; 偏比例优势模型

Abstract: Objective To investigate the correct application of cumulative odds logit model on the ordinal data. Methods The cumulative odds logit model and partial proportional odds model were used for the data from a cohort study in Shaanxi Province, and the results were compared. Results The cumulative odds logit model might not be appropriate when the proportional odds assumption was violated. Conclusion The application of cumulative odds logit model is dependent on certain conditions. It is advisable to adopt other methods when the condition of cumulative odds logit model were violated.

Key words: cumulative odds logit model; proportional odds assumption; partial proportional odds model

累积比数logit模型是二分类logit模型的扩展[1-2],主要用于处理反应变量为有序分类变量的资料。该模型对资料要求不严,解释变量既可以是连续型变量,也可以是无序分类变量或有序分类变量。Amstrong等[3]经模拟实验发现,对于多分类有序反应资料,如果采用一般的二分类logit模型而不是累积比数logit模型,则只能获得50%~70%的检验效能。说明在处理有序分类数据方面,累积比数logit模型要优于二分类logit模型。但目前对该模型的使用条件、拟合优度等内容极少有探讨。最近几年已有不少文章对二分类logit模型的正确应用进行了探讨[4-8],而对累积比数logit模型的研究却不多见。本文通过实例对累积比数logit模型的使用条件和拟合优度评价进行了探讨,为其正确应用提供借鉴。

1 材料和方法

1. 1 资料来源 资料来自于陕西某地开展的胃黏膜病变与幽门螺杆菌关系的队列研究。为探讨幽门螺杆菌与胃黏膜病变进展的关系,对400例浅表性胃炎患者检测幽门螺杆菌感染状态,将其分为感染阳性和阴性2组,同时调查了2组患者的吸烟、饮酒情况,并对所有患者进行随访。

1.2 胃黏膜病理诊断 用胃内镜观察胃黏膜病变,并在胃体大小弯、胃角、胃窦大小弯、前后壁各取胃黏膜活检组织1块。病理切片按照全国胃、十二指肠活检、病理诊断标准进行诊断。每个受检对象以最严重病变为第一诊断。病变严重程度由轻到重依次为浅表性胃炎(superficial gastritis, SG)、慢性萎缩性胃炎(chronic atrophic gastritis, CAG)、肠上皮化生(intestinal metaplasia, IM)和异型增生(dysplasia, DYS)。

1.3 统计学处理 本研究中的反应变量为病变的不同严重程度,为有序分类资料。分析方法分别采用累积比数logit模型和偏比例优势模型进行拟合。数据分析采用SAS 8.1统计软件。P

2 结 果

2.1 累积比数logit模型分析 病例随访5年后,共失访26例,剩余的374例中,135例仍为正常或SG,139例进展成为CAG,59例进展为IM,41例进展为DYS。多因素分析结果显示,校正性别、年龄、吸烟、饮酒等因素后,幽门螺杆菌对胃黏膜进展的影响无统计学意义(χ2=2.7439,P=0.0976)。见表1。

对该资料的比例优势假定条件进行检验,结果发现该资料不满足比例优势假定条件(χ2=38.85,P=0.0004),说明该资料采用累积比数logit模型分析可能并不合适。对模型的拟合优度进行分析,结果显示,Deviance值和Pearson χ2值对应的P值均小于0.05,说明模型拟合欠佳。表1 累积比数logit模型的参数估计

2.2 偏比例优势模型分析 偏比例优势模型也是基于累积logit的一种方法,但是它放宽了比例优势假定条件[9-11]。采用偏比例优势模型分析结果显示(表2),幽门螺杆菌对胃黏膜进展的影响有统计学意义(P=0.0113),这一结果与目前临床和流行病学研究结果是一致的。而且从参数估计的标准误来看,表2中的标准误均小于表1中的标准误。表2 偏比例优势模型的参数估计

3 讨 论

本次研究分别采用累积比数logit模型和偏比例优势模型对同一组数据进行分析,结果发现,在数据违反比例优势假定条件的情况下,2种模型拟合结果差别较大。累积比数logit模型结果显示幽门螺杆菌对胃黏膜病变的影响无统计学意义,而偏比例优势模型则表明幽门螺杆菌的影响有统计学意义。从统计学角度和实际角度综合考虑,偏比例优势模型的误差更小,且结果更为符合实际,提示本研究数据采用累积比数logit模型不合理。

实际中应用累积比数logit模型时,主要注意的使用条件就是比例优势假定条件,即自变量的回归系数应与分割点k无关[12]。换句话说,无论从哪一点分类,对所有的累积logit,变量χk都有一个相同的βk估计。对于一个自变量χk而言,不同累积比数发生比的回归线相互平行,只是截距参数有所差别。以前有研究认为,累积比数logit模型对这一条件并不敏感,但本次研究发现,当这一基本假设条件不满足时,结果的检验效率会降低,容易产生假阴性错误。

对于累积比数logit模型的拟合效果,可通过Pearson χ2和Deviance值来判断。Pearson χ2通过比较模型预测的和观测的事件发生和不发生的频数检验模型成立的假设,其自由度为自变量不同水平的组合数目与参数数目之差,χ2统计量小就意味着预测值与观测值之间没有显著性差别,可认为模型较好地拟合了数据。Deviance通常称为偏差,它是通过似然函数来测量所设模型与饱和模型之间的差异程度。当Deviance值较小时,可认为所设模型与饱和模型之间的差异小,即所设模型拟合较好。这2个指标值在多数情况下是一致的,如果存在不一致,一般认为,当用最大似然值拟合logit模型时,Deviance值比Pearson χ2值更适用于测量拟合优度[13]。需注意的是,当模型中含有连续变量时,Pearson χ2和Deviance指标将不再近似于χ2分布,从而也不再适用于拟合优度评价。Bender等[14]建议,如果累积比数logit模型含有连续变量时,最好采用单独的二分类logit模型利用Homser-Lemeshow指标进行评价。Pulksteins等[15]则提出了一种修正Pearson χ2和Deviance值,用于含连续变量的累积比数logit模型的拟合优度评价等。

总之,累积比数logit模型的应用不仅仅是参数求解,而是包含了一系列过程,如变量正确赋值、变量的初步描述、图示检查、变量选择、参数求解、拟合优度评价、结果的合理解释等。它需要对专业和统计学知识的全面了解,也需要一个实事求是的态度。只有准确掌握应用条件,恰当地对模型进行评价,并结合专业知识进行合理的解释,才能得出可靠的结论。

参考文献

[1] Bender R,Gruven U.Ordinal logistic regression in medical research[J].J R Coll Physic Lond,1997,31(5):546-551.

[2] McCullagh P.Regression models for ordinal data [J].J R Stat Soc(B),1980,42(2):109-142.

[3] Amstrong BG,Sloan M.Ordinal Regression models for epidemiologic data[J].Am J Epidemiol,1989,129(1):191-204.

[4] 冯国双,陈景武,周春莲.logistic回归应用中容易忽视的几个问题[J].中华流行病学杂志,2004:25(6):544-545

[5] 赵宇东,刘嵘,刘延龄,等.多元logistic回归的共线性分析[J].中国卫生统计,2001,17(5):259-261.

[6] 罗登发,余松林.条件logistic回归模型的残差分析和影响诊断[J].中国卫生统计,1997:14(1):13-15.

[7] 魏朝晖.logistic回归诊断[J].中国卫生统计,2001, 18(2):112-113.

[8] 赵清波,徐勇勇,夏结来.logistic回归中高杠杆点的检测[J].中国卫生统计,1997,14(2):17-20.

[9] Bender R,Benner A.Calculating ordinal regression models in SAS and S-Plus[J]. Biom J,2000,42(6):677-699.

[10] Peterson B, Harrell F.Partial proportional ordinal model for ordinal response variables[J].Appl Statist,1990,39(2):205-217.

[11] Lall R,Campbell MJ,Walters SJ,et al.A review of ordinal regression models applied to health-related quality of life assessments[J].Stat Methods Med Res,2002,11(1):49-67.

[12] Fahrmeir L, Tutz G.Multivariate statistical modeling based on generalized linear models [M].2nd ed. Berlin:Springer-Verlag,1998:75-79.

[13] 王济川, 郭志刚.Logistic回归模型——方法与应用[M].北京:高等教育出版社,2001:58-65.

第4篇

相关热搜:统计学  统计学原理

一、数据统计分析的内涵

数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。

二、数据统计分析的原则

(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。

三、推论性统计分析方法

(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。

四、多元统计分析方法

第5篇

关键词:ArcGIS 土壤 区域 空间变异

中图分类号:X53 文献标识码:A 文章编号:1007-3973(2012)010-108-02

1 引言

随着信息社会的到来,人类社会进入了信息大爆炸的时代。面对海量的信息,人们对信息的要求发生了巨大变化。随着计算机技术的出现和快速发展,对空间位置信息和其他属性类信息进行统一管理的地理信息系统也随之快速发展起来了。

在众多的地理信息软件中,美国公司ESRI公司推出的ArcGIS地理信息平台是最具代表性的GIS软件平台,其强大的空间分析处理工具和不断更新、完善的空间分析功能是其他软件无法比拟的。

土壤是在岩石风化产物基础上发育形成的自然体,土壤中还有各种重金属,通过ArcGIS的地统计模块能够揭示土壤重金属的空间变异规律和空间分布,为实现土壤可持续利用和区域规划提供理论依据。

2 ArcGIS中地统计模块

来自法国的统计学家G.Matheron在经过许多研究和分析后后创立了一门崭新的统计学分支:地统计学。地统计学的基础是区域化变量,以变异函数为工具,研究的对象是具有随机性和结构性的自然现象。

2.1 地统计基本原理

2.1.1 地统计假设

随机性,正态分布和平稳性分别是地统计原理的三个基本假设。在平稳性中有两大类:均值平稳和二阶平稳、内蕴平稳。均值平稳假设均值是与位置无关的一个常量;二阶平稳与协方差有联系;内蕴平稳与半变异函数有联系。二阶平稳假设在空间上的任意两点,如果它们的距离和方向都相同,那么它们的协方差也是相同的;内蕴平稳则假设在空间上的任意两点,如果它们的距离和方向是相同的,那么它们的方差也是相同的。

第6篇

本书共有10章:1.简要介绍了本书的读者对象、使用方法、组织架构等;2.统计基础,对统计方面的基础理论知识展开详细描述,包括统计思维、数据格式、绘图方式、概率分布等;3.统计推断,讲述了参数点估计、假设检验、总体样本、人口分布的概率图和测试及蒙特卡罗模拟等;4.统计模型,包括模型简介、回归模型和实验设计分析等;5.多变量统计的基础,主要包括多变量随机抽样、多变量数据可视化、样品几何形状、广义方差等;6.多变量统计推断,包括平均向量推论、两个总体的均值矢量比较、方差-协方差矩阵的推论等;7.主成分分析,主要讲解其定义和性质、停止规则、残差分析、统计推断等;8.典型相关分析,描述数学公式、实际应用、典型相关回归等理论;9.判别和分类,主要包括两个或几个总体分类和空间平滑的分类分析;10.聚类分析,包括相似和非相似方法、层次和非层次聚类算法等。

本书强调几何直观的概念理解,所有的例子都比较简单,并提供背景解释。贯穿全书的习题集和解决方案包含部分数值计算结果,读者可以方便地确认自己方法的准确性。

本书是成像科学多变量统计学课程中一本非常优秀的图书,适合本科和研究生阅读。该书也可为从事成像、光学和光电子学领域每天需要进行数据处理分析的专业人士提供有价值的参考。

Peter Bajorski博士是罗切斯特理工学院统计学系的副教授,他在统计学研究领域包括回归技术、多变量分析、实验设计、非参数方法和可视化方法等,成像研究包括光谱图像目标检测等。

聂树真,

助理研究员

(中国科学院光电研究院)

第7篇

【摘要】 目的: 介绍应用多重对应分析方法实现对大样本分类变量之间的相关性分析,旨在对大样本疾病信息采集资料的临床和基础科研工作者提供可借鉴的统计学分析方法。方法:应用SPSS11.5统计分析软件中Data Reduction菜单的Optimal Scaling过程对大样本分类变量进行多重对应分析,以研究它们之间的联系。结果:慢性胃炎的4种病理组织诊断与8种中医证型有一定的相关性,这对慢性胃炎的临床诊断及治疗具有指导意义,为慢性胃炎中医证候规范化研究提供一定的思路。结论:对于中医研究中常见的无序多分类或二分类变量,要同时研究它们之间的联系,用多重对应分析在结果的直观性和可解释性方面优于对数线性模型。SPSS11.5统计分析软件易于实现多个变量间的多重对应分析。

【关键词】 多重对应分析; 相关性分析; 大样本; 分类变量

长期以来,中医的辨证分型纷繁多样,难以统一,同时病理组织检查是许多疾病诊断及治疗的重要依据。如何理清中医证型和病理诊断之间关系是许多临床和基础科研工作者遇到的难题。本研究介绍应用多重对应分析方法实现对中医大样本证型与病理诊断的相关性分析,以期为疾病的临床诊断和治疗提供参考依据和帮助,为中医证候的规范化研究提供一定的思路,为大样本疾病信息资料的临床和基础科研工作者提供可借鉴的统计学分析方法。

1 资料及方法

1.1 资料来源

本研究资料来源于上海市重点学科(第三期) 中医诊断学建设项目(编号:S30302)。为2001年3月~2008年3月上海中医药大学附属龙华医院、曙光医院、岳阳医院及上海市第八人民医院消化科门诊且经内窥镜及病理组织学检查确诊为慢性胃炎的患者1068例。以调查表的形式获得包括基本情况、胃镜及病理组织学诊断、中医主症、食欲食量、全身情况、舌脉象、其他情况等7个部分的内容,共80个变量。所有变量经过命名及量化处理,有程度差异的变量分别赋值1、2、3、4,以示轻重程度从无到重度。对于难以分清程度差异的变量根据有无分别赋值1、0。本研究借用其中病理诊断与中医主要证型的部分实验数据。

1.2 统计学方法

调查表所得数据采用EipData3.1软件进行数据管理,双遍录入和核对,建立相关数据库。应用SPSS11.5统计分析软件中Data Reduction菜单的Optimal Scaling过程对中医主要证型与病理诊断结果进行多重对应分析,以研究它们之间的联系。

2 分析步骤及结果

其分析步骤如下:

Analyze"Data Reduction"Optimal Scaling

Define

Variables框:HP、肠化生、病理萎缩、慢性炎症

选中以上4个变量:Define Range

Maximum框:4 Continue 取值范围在1~4之间

Variables框:主证

选中以上变量:Define Range

Maximum框:8 Continue 取值范围在1~8之间

OK

结果见图1。

HP感染慢性胃炎患者中医证型以脾胃湿热证多见,依次可见肝胃郁热、脾胃气虚等证,与脾胃虚寒证无明显关联。慢性炎症类胃炎患者中医证型以湿浊中阻证多见,次之可见脾虚湿阻证、脾胃气虚证、肝气郁结证,较少出现脾胃虚寒证。萎缩性胃炎患者中医证型以虚证为主,以脾胃气虚证多见,次见脾胃虚寒证,较少出现湿浊中阻、脾胃湿热等实证。肠化生类胃炎患者中医证型以肝胃郁热、湿浊中阻证多见,次之见肝气郁结、脾胃气虚等证。

图1 分析结果

3 讨论

本研究采用大样本的临床病例资料,经统计学多重对应分析方法分析显示,中医证型与西医病理组织诊断间有一定的相关性,这有助于了解疾病不同病情阶段的中西医诊断之间的内在相关性,有利于用辨证与辨病相结合的方式为疾病的临床诊断和治疗提供依据和帮助。如对于无明显临床症状的患者,可以以病理组织的不同特点及舌脉象特征作为中医辨证论治的依据;对于病理组织检查尚未明确的患者,可以结合中医的辨证结果及其他检查初步制定诊疗方案。也可为中西医结合探讨该疾病的病因病机及证治规律寻求理论及临床实践中的结合点,同时为疾病的中医证候客观化研究提供一定的思路和方法。

中医领域的研究很多变量多为无序多分类或二分类变量,同时研究它们之间的联系可用的方法有对数线性模型和多重对应分析两种,从结果的直观性和可解释性上讲,多重对应分析要更好些。多重对应分析是多维图示分析技术的一种,是了解多维数据间联系的一种强有力的方法,该分析方法既有频数的分析,也有各变量间的关系图示。其分析结果主要采用反映变量间相互关系的对应分析图来表示。该图形中的每个散点代表了某个变量的一个水平,有较紧密关系的水平其散点将紧密地靠近一起,从而在结果的解释上非常的直观。在解释该图形时遵从的原则是:落在由原点(0,0)出发接近相同方位及图形相同区域的同一变量的不同类别具有类似的性质;落在原点出发接近相同方向及图形相同区域的不同变量的类别间可能有联系。SPSS11.5统计分析软件易于实现多个变量间的多重对应分析。但在变量较多时可能会掩盖真实联系,同时使得图形一片混乱,难以看清(根据此次实际操作经验,每次最多选入的变量不能超过13个,否则真的是一片混乱,无法处理了)。此时需要用户根据经验和分析结果进行耐心的筛选,以得到最优结果。这对使用者的分析水平和职业道德都是一个严峻的考验。

【参考文献】