您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页多元统计分析方法

多元统计分析方法

来源:爱go旅游网
多元统计分析⽅法

多元统计分析概述⽬录⼀、引⾔ (3)

⼆、多元统计分析⽅法的研究对象和主要内容 (3)1.多元统计分析⽅法的研究对象 (3)2.多元统计分析⽅法的主要内容 (3)三、各种多元统计分析⽅法 (3)1.回归分析 (3)2.判别分析 (6)3.聚类分析 (8)4.主成分分析 (10)5.因⼦分析 (10)6. 对应分析⽅法 (11)7. 典型相关分析 (11)

四、多元统计分析⽅法的⼀般步骤 (12)

五、多元统计分析⽅法在各个⾃然领域中的应⽤ (12)六、总结 (13)参考⽂献 (14)谢辞 (15)⼀、引⾔

统计分布是⽤来刻画随机变量特征及规律的重要⼿段,是进⾏统计分布的基础和提⾼。多元统计分析⽅法则是建⽴在多元统计分布基础上的⼀类处理多元统计数据⽅法的总称,是统计学中的具有丰富理论成果和众多应⽤⽅法的重要分⽀。在本⽂中,我们将对多元统计分析⽅法做⼀个⼤体的描述,并通过⼀部分实例来进⼀步了解多元统计分析⽅法的具体实现过程。⼆、多元统计分析⽅法的研究对象和主要内容(⼀)多元统计分析⽅法的研究对象

由于⼤量实际问题都涉及到多个变量,这些变量⼜是随机变量,所以要讨论多个随机变量的统计规律性。多元统计分析就是讨论多个随机变量理论和统计⽅法的总称。其内容包括⼀元统计学中某些⽅法的直接推⼴,也包括多个随即便量特有的⼀些问题,多元统计分析是⼀类范围很⼴的理论和⽅法。

现实⽣活中,受多个随机变量共同作⽤和影响的现象⼤量存在。统计分析中,有两种⽅法可同时对多个随机变量的观测数据进⾏有效的分析和研究。⼀种⽅法是把多个随机变量分开分析,⼀次处理⼀个随机变量,分别进⾏研究。但是,这样处理忽略了变量之间可能存在的相关性,因此,⼀般丢失的信息太多,分析的结果不能客观全⾯的反映整个问题,⽽且往往也不容易取得好的研究结论。另⼀种⽅法是同时对多个随机变量进⾏研究分析,此即多元统计⽅法。通过对多个随即便量观测数据的分析,来研究随机变量总的特征、规律以及随机变量之间的相互关系。所以,多元统计分析是研究多个随机变量之间相互依赖关系及内在统计规律的⼀门统计学科。(⼆)多元统计分析⽅法的主要内容

近年来,随着统计理论研究的不断深⼊,多元统计分析⽅法的内容⼀直在丰富。其中,主要内容包括多元正态总体参数估计、假设检验和常⽤的多元统计⽅法。多元正态总体参数估计、假设检验是多元统计推断的核⼼和基础,⽽常⽤的多元统计分析⽅法则是具体应⽤。从形式上,常⽤多元统计分析⽅法可划分为两类:

⼀类属于单变量常⽤的统计⽅法在多元随机变量情况下的推⼴和应⽤,如多元回归分析,典型相关分析等;

另⼀类是对多元变量本⾝进⾏研究所形成的⼀些特殊⽅法。如主成分分析,因⼦分析,聚类分析,判别分析,对应分析等。三、各种多元统计分析⽅法

具体来说,常⽤的多元统计分析⽅法主要包括:多元回归分析、聚类分析、判别分析、主成分分析、因⼦分析、对应分析、典型相关分析等。下⾯我们对各种多元统计分析⽅法就⾏分别描述,(⼀)回归分析

回归分析是最灵活最常⽤的统计分析⽅法之⼀,它⽤于分析⼀个因变量与⼀个或多个⾃变量之间的关系。特别是⽤于:(1)定量的描述和解释相互关系;(2)估测或预测因变量的值。

回归分析⽅法是在众多的相关变量中,根据实际问题考察其中⼀个或多个变

量与其余变量的依赖关系。如果只要考察⼀个变量与其余多个变量之间的相互依赖关系,我们称为多元回归问题。若要同时考察多个因变量与多个⾃变量之间的相互依赖关系,我们称为多因变量的多元回归问题。

多元回归分析是研究因变量Y 与m 个⾃变量12···m x x ,,,x 的相关关系 ,⽽且总是假设因变量Y 为随机变量,⽽12···m x x,,,

x 为⼀般变量。 下⾯我们来看⼀下多元线性回归模型的建⽴。假定因变量Y 与12···m x x ,,,

x 线性相关。收集到的n 组数据(12,,,t t t tm y x x x L ,)(t=1,2,···n )满⾜以下回归模型:{

11022···+(1,2,,)

()0,(),(,)0()~(0,),t t m tm t t t i j t y x x t n E Var Cov i j N βββεεεσεεεσ=+++====≠L L 或相互独⽴(t=1,2,n).记

C=11111(1)1m n n nm x x X x x ??= ? ???K

M O M M L, 01

1212,,n m n y y y Y βεβεβεβε===M M M

则所建回归模型的矩阵形式为{2()(),

0,,n n Y C E D I εεβεσ=+==或{2,

~(0,),n n Y C N I βεεσ=+

并称它们为经典多元回归模型,其中Y 是可观测的随机向量,ε是不可观测的随机向量,C 是已知矩阵,2βσ,是未知参数,

并设n>m ,且rank(C)=m+1。 在经典回归分析中,我们讨论模型中参数01(,,,)m ββββ'=L 和2σ的估计和检验问题。近代回归分析中讨论变量筛选、估计的改进,以及对模型中的⼀些假设进⾏诊断等问题。

我国国内⽣产总值与基本建设投资额的⼤⼩有密切关系,研究发现两变量之间存在线性关系。根据⽢肃省1990-2003年的国内⽣产总值与基本建设投资额数

据,研究它们的数量规律性,探讨⽢肃省基本建设投资额与国内⽣产总值的数量

平⽅和⾃由度⽅差 F 检验值回归1残差12离差13

复相关系数 R =.98剩余标准差 SY =

回归⽅差与剩余⽅差之⽐ F =各个⾃变量的 t 检验值17.

t 检验的⾃由度 N-P-1 =12F 检验的⾃由度

第⼀⾃由度=1,第⼆⾃由度=12各个⾃变量的偏回归平⽅和各个⾃变量的偏相关系数由输出结果,得以下结论:x

回归⽅程为 y=+1

其中,负相关系数为2R=,说明回归⽅程拟合优度较⾼。⽽回归系数的t=,查t 分布表0.025(12) 2.1788t =,⼩于t 值,因此回归系数显着。查F 分布表,0.05(1,12)F =,由下表知,F=>,因此回归⽅程也显着。

判别分析是多元统计分析中⽤于判别样品所属类型的⼀种统计分析⽅法,是⼀种在已知研究对象⽤某种⽅法已经分成与若⼲类的情况下,确定新的样品属于哪⼀类的多元统计分析⽅法。

判别⽅法处理问题时,通常通常要给出⽤来衡量新样品与各已知组别的接近程度的指数,即判别函数,同时也指定⼀种判别准则,借以判别新样品的归属。所谓判别准则是⽤于衡量新样品与各已知组别接近程度的理论依据和⽅法准则。常⽤的有,距离准则、Fisher 准则、贝叶斯准则等。距离判别的基本思想是:样品和那个总体距离最近,就判断它属于哪个总体。距离判别也称直观判别。

已知有两个类1G 和2G ,⽐如1G 是设备A ⽣产的产品,2G 是设备B ⽣产的同类产品。设备A 的产品质量⾼(如考察指标为耐磨度X ),其平均耐磨度(1)µ=80,反映设备精度的⽅差21σ=;设备B 的产品质量稍差,其平均耐磨度2µ=75,反映设备精度的⽅差22σ=4。今有⼀产品0X ,测得耐磨度0x =78,试判断该产品是哪⼀台设备⽣产的?

下⾯考虑⼀种相对于分散性的距离。记0X 与1G 或2G 的相对平均距离为

210()d x 或220()d x ,则有:210()d x =(1)2202

1()(7880)0.25x µσ--==16, 220()d x =(2)22022()(7875)4.00x µσ--=

=。 因为20()d x =<4=10()d x ,按这种距离准则应判0X 为设备B ⽣产的。⼀般的,我们假设总体1G 的分布为(1)21(,)N µσ,总体2G 的分布为(2)22

(,)N µσ,则利⽤相对距离的定义,可以找出分界点µ*和µ*(不妨设(2)µ<(1)µ,1σ<2σ),令(1)(2)(1)2(2)221221

212()()x x x µσµσµµσσσσ+--=

=+def =µ*,和x=(1)(2)2121µσµσσσ--def=µ*。

此例中,µ*=79,µ*=。⽽按这种距离最近法则的判别法为:(1)2(2)2122

12(1)2(2)222212()()X ()()X x x G x x x G µµµµσσµµµµσσ****--∈<<<--∈≥≤≥

判,当(即)判,当(即x 或x ) 为了区分⼩麦品种的两种不同的分蘖类型,⽤123,,x x x 三个指标求其判别函数。经验样品中,第⼀类取11(主茎型)个样品,第⼆类(分蘖型)取12个样

(1)X -(2)X =,

,)T , X =(1)(2)2

X X += ,, xx L =(1)xx L +(2)xx L =0.56240.1821

0.83550.282115.516032.30140.835532.3014126.2374, 11

1.79780.01690.007621210.01690.13810.03520.00760.03520.0170xx S L ----==--??--, (1)(2)11()()()2T X X X S X X ω-=--=1230.846221(0.4425,0.0486,0.0468) 3.8286212.1295x x x -??----

⽤()X ω对经验样本的23个样品进⾏判别有如下结果:第⼀类的11个样本中有10个判别为第⼀类,⼀个判别为第⼆类;第⼆类的12个样品全部判别为第⼆类,符合率为22/23=96%。例如,第⼀类第⼀个样品(1)1X =(0.71,3.80,12.00)T ,则(1)1()X ω=>0,则(1)1X 1G ∈(第⼀类)。⼜如,第⼀类的第11个样品(1)11X =(1.00,4.50,12.00)T ,(1)11()X ω=<0,故(1)11X 2G ∈(第⼆类)。

将()X ω投⼊使⽤,可判别⼩麦品种的分蘖类型,如测得某⼩麦品种11x =,2 3.43x =,316.25x =,则由()X ω=<0判别该品种为分蘖型。(三) 聚类分析

聚类分析是将样品或变量按照它们在性质上的亲疏程度进⾏分类的多元统计分析⽅法。聚类分析时,⽤来描述样品或变量的亲疏程度通常有来两个途径,⼀是把每个样品或变量看成是空间上的⼀个点,在坐标中,定⼀点与点,类和类之间的距离,⽤点与点间距离来描述样品或变量之间的亲疏程度:另⼀个是计算样品或变量的相似系数,⽤相似系数来描述样品或变量之间的亲属程度。

聚类分析是实⽤多元统计分析的⼀个新的分⽀,聚类分析的功能是建⽴⼀种分类⽅法,他将⼀批样品或变量,按照它们在性质上的亲疏、相似程度进⾏分类。

聚类分析的内容⼗分丰富,按其聚类的⽅法可分为以下⼏种:

(1)系统聚类法:开始每个对象⾃成⼀类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度。这⼀过程可⽤⼀张谱系聚类图描述。

(2)调优法(动态聚类法):⾸先对n 个对象初步分类,然后根据分类的损失函数尽可能⼩的原则对其进⾏调整,直到分类合理为⽌。

(3)最优分割法(有序样品聚类法):开始将所有样品看做⼀类,然后根据某种最优准则将它们分割为⼆类、三类,⼀直分割到所需的K 类为⽌。这种⽅法适⽤于有序样品的分类问题,也称为有序样品的聚类法。

(4)模糊聚类法:利⽤模糊集理论来处理分类问题,它对经济领域中具有模糊特征两态数据或多态数据具有明显的分类效果。(5)图论聚类法:利⽤图论中最⼩⽀撑树的理论来处理分类问题,创造了独具风格的⽅法。

(6)聚类预报法:利⽤聚类⽅法处理预报问题,在多元统计分析中,可以⽤来做预报的⽅法很多,如回归分析和判别分析。但对⼀些异常数据,如⽓象中的灾害性天⽓的预报,使⽤回归分析或判别分析处理的效果都不好,⽽聚类预报弥补了这⼀不⾜,只是⼀个值得重视的⽅法。

聚类分析根据对象的不同⼜分为R 型和Q 型两⼤类,R 型是对变量(指标)进⾏分类,Q 型是对样品进⾏分类。

R 型聚类分析的⽬的有以下⼏⽅⾯:

(1)可以了解变量间及变量组合间的亲疏关系; (2)对变量进⾏分类; (3)根据分类结果及它们之间的关系,在每⼀类中选择有代表性的变量作为重要变量,利⽤少数⼏个重要变量进⼀步作分析计算,如进⾏回归分析或Q 型聚类分析等。Q 型聚类分析的⽬的主要是对样品进⾏分类。分类的结果是直观的,且⽐传统的分类⽅法更细致、全⾯、合理。当然使⽤不同的分类⽅法通常有不同的分类结果。对任何观测数据都没有唯⼀“正确”的分类⽅法。实际应⽤中,常采⽤不同的分类⽅法,对数据进⾏分析计算,⼀边对分类提供具体意见,并由实际⼯作者决定所需要的分类数及分类情况。

下⾯是聚类分析的⼀个简单例⼦。有五个样品,每个只测量了⼀个指标,分别为1,2,6,8,11,我们⽤最短距离法将它们分类。(1)计算五个样品两两间的距离,得初始类间的距离矩阵(0)D ,

(2)由(0)D 知类间最⼩距离为1,于是将1G 和2G 合并成6G ,并计算6G 和其他类之间的距离,的新的距离阵(1)D

(3)由(1)D 知,类间最⼩距离为2,合并3G 和4G 为7G ,计算7G 与其他类间的距离得矩阵(2)D ,

(4)由(2)D 知,类间的最⼩距离为3,将5G 和7G 合并为8G ,得新的距离矩阵(3)D ,

(5)最后将6G 和8G 合并为9G ,这时五个样品聚为⼀类。(四) 主成分分析

主成分分析是采取⼀种数学降维的⽅法,找出⼏个综合变量来代替原来众多的变量,是这些综合变量尽可能的代表原来变量的信息,⽽且彼此之间互不相关。这种把多个变化量化为少数⼏个互相⽆关的综合变量的统计分析⽅法就叫做主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有⼀定相关性的变量,重新组合为⼀组新的相互⽆关的综合变量来代替原来变量。通常,数学上的处理⽅法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以,则可以有很多,应该如何选择呢?如果将选取的第⼀个线性组合即第⼀个综合变量记为1F ,⾃然希望它尽可能多的反映原来变量信息,这⾥信息⽤⽅差来测量,即希望1()Var F 越⼤,表⽰1F 包含信息越多。因此在所有线性组合中所选取的1F 应该是⽅差最⼤的,故称1F 为第⼀主成分。如果第⼀主成分不⾜以代表原来p 个变量的信息,再考虑选取2F 即第⼆个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,⽤数学语⾔表达就是要求12(,)Cov F F =0,称2F 为第⼆主成分,以此类推可以构造出第三、四……第p 个主成分。 (五)因⼦分析

因⼦分析是主成分分析的推⼴和发展,它是由研究原始数据相关矩阵的内部依赖关系出发,把⼀些具有错综复杂关系多个变量(或样品)综合为少数⼏个因⼦,并给出原始变量与综合因⼦之间相关关系的⼀种多元统计分析⽅法。它也属于多元分析中数据降维的⼀种统计⽅法。

因⼦分析是通过变量(或样品)的相关系数矩阵内部结构的研究,找出存在于所有变量(或样品)中具有共性的因素,并综合为少数⼏个新变量,把原始变量表⽰成少数⼏个综合变量的线性组合,以再现原始变量与综合变量之间的相关关系。其中,这⾥的少数⼏个综合变量⼀般是不可观测指标,通常称为公公因⼦。

因⼦分析常⽤的两种类型:⼀种是R 型因⼦分析,即对变量进⾏因⼦分析:另⼀种叫做Q 型因⼦分析,即对样品进⾏的因⼦分析。 (六)对应分析⽅法

对应分析⼜称为相应分析,是⼀种⽬的在于揭⽰和样品之间或者定性量资料中变量与其类别之间的相互关系的多元统计分析⽅法。 对应分析的关键是利⽤⼀种数据变换,使含有p 个变量n 个样品的原始数据矩阵,变换成为⼀个过渡矩阵Z ,并通过矩阵Z 将R 型因⼦分析和Q 型因⼦分析有机的结合起来。具体地说,⾸先给出进⾏R 型因⼦分析时变量点的协差阵A=Z Z '和进⾏Q型因⼦分析时样品点的协差阵B=ZZ ',由于Z Z '和ZZ '有相同的⾮零特征根,记为12,0min(,)m m p n λλλ≥≥≥<≤L

依据证明,如果A 的特征根i λ对应的特征向量为i U ,则B 的特征根i λ对应的特征向量就是i i ZU V @,根据这个结论就可以很⽅便的借助R 型因⼦分析⽽得到Q 型因⼦分析的结果。因为求出A 的特征根和特征向量后很容易地写出变量点协差阵对应的因⼦载荷矩阵,记为F 。则

F=12p p u u u u u u u u u ?

这样,利⽤关系式i i ZU V @也很容易地写出样品点协差阵B 对应的因⼦载荷阵,记为G 。则G=12n n v v v v v v v v v ?

从结果的展⽰上,由于A 和B 具有相同的⾮零特征根,⽽这些特征根正是公共

因⼦的⽅差,因此可以⽤相同的因⼦轴同时表⽰变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因⼦平⾯上,以便显⽰出变量点和样品点之间的相互关系,并且可以⼀并考虑进⾏分类分析。 (七) 典型相关分析 在经济问题中,不仅经常需要考察两个变量之间的相关程度,⽽且还经常需

要考察多个变量与多个变量之间即两组变量之间的相关系。典型相关分析就是研究两组变量之间相关程度的⼀种多元统计分析⽅法。

典型相关分析是研究两组变量之间相关关系的⼀种统计分析⽅法。为了研究两组变量12,,p X X X L 和12,,q Y Y Y L 之间的相关关系,采⽤类似于主成分分析的⽅法,在两组变量中,分别选取若⼲有代表性的变量组成有代表性的综合指数,通过研究这两组变量之间的相关关系,来代替这两组变量之间的相关关系,这些综合指数称为典型变量。

此外,多元统计分析⽅法还有⽅差分析、偏最⼩⼆乘回归分析、逻辑分析、联合分析等,我们就不做⼀⼀介绍了。四、多元统计分析⽅法的⼀般步骤

与⼀般统计分析⽅法⼀样,多元统计分析⽅法也要经过建⽴模型、进⾏参数估计、假设检验以及预测控制等步骤。以经济统计为例,具体步骤是: 1、根据经济理论进⾏定性分析,设计理论模型;2、对实际经济活动的现象抽取样本,并取得样本统计资料;

3、对描述样本的指标利⽤多元统计分析⽅法进⾏统计分析,选择最佳的统计指标;4根据最佳指标的样本数据,估计参数,建⽴数量模型模型;五、多元统计分析⽅法在各个⾃然领域中的应⽤

多元统计分析是解决实际问题的有效的数据处理⽅法,其应⽤范围⾮常⼴泛。多元统计分析⽅法可以应⽤于地质科学、⽓象科学、医疗卫⽣、体育、语⾔学、考古学、教育学、⼼理学以及经济学、管理学等各个⽅⾯。下⾯我们以经济学和管理学为例,了解⼀下多元分析⽅法在其中的作⽤和应⽤的场合与领域: 1、简化数据结构。

对多个变量进⾏降维处理,选择数⽬较⼩的变量⼦集合。在商业经济中,为了能够全⾯刻画所研究对象的数量特征,往往要调查多⽅⾯的统计数据。数据维数越多,反映问题越全⾯,但同时也给数据分析带来困难。这是句要⽤降维的⽅法将很复杂的数据综合成商业指数形式,处理⽅法主要有主成 分分析、因⼦分析和对应分析等。 2、对研究对象进⾏分类与判别。 ⽐如根据各地区的经济发展⽔平、经济发展特征对我国各地区的经济发展类型进⾏划分,需要通过反映各地区经济情况的多项数据测算各地区经济发展的相似度,并以对各地经济类型此进⾏划分和归类。⽤来处理这⼀问题的多元统计⽅法主要是聚类分析、判别分析等。 3、建⽴经济模型。

经济模型⼀般是指把经济变量之间的依存关系通过通过数学表达形式加以模拟。例如根据我国⼏⼗年来财政收⼊与国民收⼊、⼯农业总值、⼈⼝、就业⼈⼝、固定投资等相关因素,利⽤回归⽅法建⽴预测模型,对今后的财政收⼊进⾏预测。4、研究经济现象之间的相互关系。

当我们研究两组变量之间的相关程度时,只⽤简单直线相关系数是不够的,

在多元统计分析中,⽤典型相关分析可以处理两组变量之间的相关程度的分析和测算。

有⼀点需要特殊说明,由于现实问题的复杂性和每种多元分析⽅法特殊的应⽤场合和⾃⾝的局限性,所以在处理问题时有必要将各种多元分析⽅法结合运⽤。六、总结

经过20世纪的空前发展,数学的基本理论更加深⼊和完善,⽽计算机技术的发展使得数学的应⽤更加⼴泛和直接,多元统计分析⽅法已经⼴泛的应⽤到社会科学和⾃然科学的许多领域,尤其在经济⽅⾯根是发挥了巨⼤的作⽤。通过本⽂的描述可以使⼤家简单了解多元统计分析⽅法,从⽽更好的掌握和运⽤多元分析⽅法。任何定量分析⽅法在研究现实问题时只是揭⽰了这种问题表⾯的数量规律,所以在应⽤多元统计分析时,我们必须注意定量分析与定性分析相结合。只有两者的有机结合才能得出深刻的符合实际的结论。参考⽂献

张尧庭,⽅开泰等着.多元统计分析引论.北京:科学出版社,1982⾼惠璇.应⽤多元统计分析.北京:北京⼤学出版社,2005.1周光亚等.多元统计⽅法.长春:吉林⼤学出版社,

于秀林等编着.多元统计分析.北京:中国统计出版社,1999

王学仁,王松桂编译.实⽤多元统计分析.上海:上海科学技术出版社,1990 Richard A Johnson,Dean W

Wichern.Applied MultiVariate Statistical Analysis.4th Edition.Englewood Cliffs,N J:Prentice-Hall,Inc,1998何晓群,现代统计分析⽅法与应⽤[M].北京:中国⼈民⼤学出版社,1998王学民编着.应⽤多元统计分析.第⼆版.上海上海财经⼤学出版社,1999谢辞

在此论⽂完成之际我⾸先要衷⼼感谢我的导师齐海涛⽼师。本学位论⽂是在齐⽼师的精⼼指导下完成的。齐⽼师时刻关⼼我找我知识的情况及论⽂的进展,帮助我开阔思路、精⼼点拨、热忱⿎励。每当我遇到问题、毫⽆头绪时,与考试的讨论总能让我豁然开朗:⽼师思考问题的⽅法、观察问题的⾓度,给了我很⼤启发。齐⽼师渊博的知识理论、深邃的思维⽅式都给我留下了深刻的印象,永远是我学习的榜样。

其次还要感谢⼤学四年中的每⼀位⽼师对我的指导和帮助。向各位⽼师表⽰我衷⼼的感谢和敬意。

同时还要感谢⼤学中和我⼀起⾛过来的同学和朋友们,是你们的⽀持使我获得了许许多多的快乐和温馨。在感谢你们的同时祝

愿你们在以后的⽣活学习⼯作中过得幸福快乐。

最后,我要感谢我的⽗母,感谢他们⼆⼗多年来的养育之恩。在我的⼤学⽣活即将结束之际,我真⼼的祝福他们健康长寿,事事顺⼼。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务