在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。 1.1 回归分析基本概念
相关分析和回归分析都是研究变量间关系的统计学课题。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。
在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。 在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。
相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。
具体地说,回归分析主要解决以下几方面的问题。
(1)通过分析大量的样本数据,确定变量之间的数学关系式。
(2)对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。 (3)利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。 作为处理变量之间关系的一种统计方法和技术,回归分析的基本思想和方法以及“回归(Regression)”名称的由来都要归功于英国统计学F·Galton(1822~1911)。
在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。 1.2 多元线性回归
1.2.1 多元线性回归的定义
一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。
一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照
时数、平均湿度等。
因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。
研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。
多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。
1.2.2 多元线性回归模型
1.2.2.1元线性回归模型及其矩阵表示
设y是一个可观测的随机变量,它受到p个非随机因索
x1,x2,…,xp和随机因素的影响,若y与x1,x2,…,xp有如下线性关
系:
y01x1pxp (1.1)
其中0,1,…,p是p1个未知参数,是不可测的随机误差,且通常假定~N(0,2).我们称式(1.1)为多元线性回归模型.称y为被解释变量(因变量),xi(i1,2,,p)为解释变量(自变量). 称 (1.2)
为理论回归方程.
E(y)01x1pxp
对于一个实际问题,要建立多元回归方程,首先要估计出未知参数0,1,
…,p,为此我们要进行n 次独立观测,得到n组样本数据
(xi1,xi2,,xip;yi),i1,2,,n,他们满足式(1.1),即有
y101x112x12px1p1yxxx20121222p2p2 (1.3) yn01xn12xn2pxnpn其中1,2,,n相互独立且都服从N(0,2).
式(1.3)又可表示成矩阵形式: YX (1.4)
这里,Y(y1,y2,,yn)T,(0,1,,p)T,(1,2,,n)T,
~Nn(0,2In),In为n阶单位矩阵.
1x111x21X1xn1x12x1px22x2p xn2xnpn(p1)阶矩阵X称为资料矩阵或设计矩阵,并假设它是列满秩的,
即rank(X)p1.
由模型(1.3)以及多元正态分布的性质可知,Y仍服从n维正态分布,它的期望向量为X,方差和协方差阵为2In,即
Y~Nn(X,2In).
1.2.2.2参数的最小二乘估计及其表示
1. 参数的最小二乘估计
与一元线性回归时的一样,多元线性回归方程中的未知参数
0,1,,p仍然可用最小二乘法来估计,即我们选择
(0,1,,p)T使误差平方和
2Q()ˆiT(YX)T(YX)ni1(yi01xi12xi2pxip)2i1n
达到最小.
由于Q()是关于0,1,,p的非负二次函数,因而必定存在最小值,利用微积分的极值求法,得
nˆ)Q(ˆˆxˆxˆx)02(yi01i12i2pipi10nˆ)Q(ˆˆxˆxˆx)x02(yi01i12i2pipi1i11 nˆˆˆxˆxˆx)x0Q()2(yi01i12i2pipikki1Q(nˆ)ˆˆxˆxˆx)x02(yi01i12i2pipipi1pˆ(i0,1,,p)是i(i0,1,,p)的最小二乘估计.上述对Q()求这里i偏导,求得正规方程组的过程可用矩阵代数运算进行,得到正规方程组的矩阵表示:
ˆ)0 XT(YX移项得
ˆXTYXTX
(1.5)
称此方程组为正规方程组.
依据假定R(X)p1,所以R(XTX)R(X)p1.故(XTX)1存在.解
正规方程组(1.5)得
ˆ(XTX)1XTY
(1.6)
ˆˆxˆxˆx为经验回归方程. ˆ称y01122pp 2.误差方差2的估计
将自变量的各组观测值代入回归方程,可得因变量的估计量(拟合值)为
ˆ ˆ(yˆ1,yˆ2,,yˆp)2XY
ˆ[IX(XTX)1XT]Y(IH)Y称为残差向量,ˆYX向量eYYnn其中HX(XTX)1XT为n阶对称幂等矩阵,In为n阶单位阵.
ˆTXTY为残差平方和(Error Sum of 称数eTeYT(InH)YYTYSquares,简写为SSE).
由于E(Y)X且(InH)X0,则
E(eTe)E{tr[T(InH)]}tr[(InH)E(T)]
2tr[InX(XTX)1XT]
2{ntr[(XTX)1XTX]} 2(np1)
ˆ2从而1eTe为2的一个无偏估计. np1
3.估计量的性质
ˆ)Var(ˆ)2(XTX)1. 性质1 ˆ为的线性无偏估计,且D(ˆ(XTX)1XTY是Y的线性函数,故其为线性估计,且证 由于有
ˆ)(XTX)1XTE(Y)ˆ(XTX)1XTX E(ˆ)(XTX)1XTD(Y)XT(XTX)12(XTX)1 D(
这一性质说明ˆ为的线性无偏估计,又由于(XTX)1一般为非对
角阵,故ˆ的各个分量间一般是相关的.
性质2 E(e)O,D(e)2(IH).
证 由于e(IH)Y,故E(e)(IH)E(Y)(IH)XO
D(e)(IH)D(Y)(IH)T2(IH) 这一性质表明残差向量的各个分量间一般也是相关的.
ˆ)O. 性质3 Cov(e,ˆ)Cov((IH)Y,(XTX)1XTY) 证 Cov(e, (IH)D(Y)X(XTX)1O.
这一性质表明残差e与的最小二乘估计ˆ是不相关的,又由于残差平方和SSE是e的函数,故它与ˆ也不相关.在正态假定下不相关与独立等价,因而SSE与ˆ独立.
性质4 E(SSE)(np1)2. 证明略
性质5 (Gauss-Markov定理)在假定E(Y)X,D(Y)2Inˆ,的任一线性函数T的最小方差线性无偏估计时,(BLUE)为T其中是任一p1
维向量,ˆ是的最小二乘估计.
性质6 当YNn(X,2I),有以下几点结论:
ˆN(,2(XTX)1); (1)(2)SSE与ˆ独立; (3)SSE2(np1).
性质5、性质6的证明参见周纪芗《回归分析》或方开泰《实用
回归分析》.
1.2.3回归方程和回归系数的显著性检验
给定因变量y与x1,x2,…,xp的n组观测值,利用前述方法确定线性回归方程是否有意义,还有待于显著性检验.下面分别介绍回归方程显著性的F检验和回归系数的t检验,同时介绍衡量回归拟合程度的拟合优度检验
1.2.3.1回归方程显著性的检验
对多元线性回归方程作显著性检验就是要看自变量x1,x2,…,xp从整体上对随机变量y是否有明显的影响,即检验假设:
H0:12p0 H1:i0,1ip如果H0被接受,则表明y与x1,x2,…,xp之间不存在线性关系.为了说明如何进行检验,我们首先建立方差分析表.
1. 离差平方和的分解
我们知道:观测值y1,y2,…,yn之所以有差异,是由于下述两个原因引起的,一是y与x1,x2,…,xp之间确有线性关系时,由于
x1,x2,…,xp取值的不同而引起yi(i1,2,...,n)值的变化;另一方面是
除去y与x1,x2,…,xp的线性关系以外的因素,如x1,x2,…,xp对y1n的非线性影响以及随机因素的影响等.记yyi,则数据的总
ni1离差平方和(Total Sum of Squares)
SST(yiy)2 (1.7)
i1n反映了数据的波动性的大小. 残差平方和
ˆi)2 (1.8) SST(yiyi1n反映了除去y与x1,x2,…,xp之间的线性关系以外的因素引起的数据y1,y2,…,yn的波动.若SSE0,则每个观测值可由线性关系精确拟合,SSE越大,观测值和线性拟合值间的偏差也越大.
回归平方和(Regression Sum of Squres)
ˆiy)2 (1.9) SSR(yi1n1nˆiy,故SSR反映了线性拟合值与它们的平均由于可证明yni1值的宗偏差,即由变量x1,x2,…,xp的变化引起y1,y2,…,yn的
ˆi不随x1,x2,…,xp波动.若SSR0,则每一个拟合值均相当,即y而变化,这意味着12组(4.8)可以证明:
p0.利用代数运算和正规方程
ˆy)(yyˆ)(yy)(y22iiiii1i1i1nnn2
即 SSTSSRSSE
(1.10)
因此,SSR越大,说明由线性回归关系所描述的y1,y2,…,yn的波动性的比例就越大即y与x1,x2,…,xp的线性关系就越显著.线性模型的拟合效果越好.
另外,通过矩阵运算可以证明SST、SSE、SSR,有如下形式的矩阵表示:
1T1TTSSTYYYJYY(IJ)YnnnTTTTSSEeeYYXYY(InH)Y (1.11) 11SSRXTYYTJYYT(HJ)Ynn其中J表示一个元素全为1的n阶方阵. 2. 自由度的分解
对应于SST的分解,其自由度也有相应的分解,这里的自由度是指平方中独立变化项的数目.在SST中,由于有一个关系
式(yiy)0,即yiy(i1,2,,n)彼此并不是独立变化的,故
i1n其自由度为n1.
可以证明,SSE的自由度为np1,SSR的自由度为p,因此对应于SST的分解,也有自由度的分解关系
n1(np1)p (1.12)
3. 方差分析表
基于以上的SST和自由度的分解,可以建立方差分析表1.1 方差来平方和 源 SSR SSE SST YT(H1J)Y n自由度 均方差 SSR pF值 p MSRYT(IH)Y np1 SSEMSE np1FMSR MSEYT(I1J)Y nn1 1.2.3.2线性回归方程的显著性检验
与一元线性回归时一样,可以用F统计量检验回归方程的显著性,也可以用P值法(P-Value)作检验. F统计量是
FMSRSSR/p (1.13) MSESSE/(np1)当H0为真时,F~F(p,np1),给定显著性水平,查F分布表得临界值F(p,np1),计算F的观测值F0,若F0F(p,np1),则接受
H0,即在显著性水平之下,认为y与x1,x2,…,xp的线性关系就不显
著;当F0F(p,np1)时,这种线性关系是显著的.利用P值法作显
著性检验性检验十分方便:这里的P值是P(FF0),表示第一、第二自由度分别为p,np1的F变量取值大于F0的概率,利用计算机很容易计算出这个概率,很多统计软件(如SPSS)都给出了检验的P值,这省去了查分布表的麻烦,对于给定的显著性水平,若p,则拒绝H0,反之,接受H0.
如果检验的结果是接受原假设H0,那意味着什么呢?这时候表明,与模型的误差相比,自变量对因变量的影响是不重要的.这可能有两种情况.其一是模型的各种误差太大,即使回归自变量对因变量
y有一定的影响,但相比于误差也不算大.对于这种情况,我们要想
办法缩小误差,比如检查是否漏掉了重要的自变量,或检查某些自变量与y是否有非线性关系等;其二是自变量对y的影响确实 很小,这时建立y与诸自变量的回归方程没有实际意义. 1.2.3.3回归系数的显著性检验
回归方程通过了显著性检验并不意味着每个自变量xi(i1,2,,p)都对
可能其中的某个或某些自变量对y的影响并不显著。y有显著地影响,
我们自然希望从回归方程中剔除那些对y的影响不显著的自变量,从而建立一个较为简单有效地回归方程.这就需要对每一个自变量作考察.显然,若某个自变量xi对y无影响,那么在线性模型中,它的系数i应为零.因此检验xi的影响是否显著等价于检验假设
H0:i0,H1:i0
由性质6可知:
N(,2(XX)1)
若记p1阶方阵C(cij)(XX)1,则有
于是当H0成立时,有
因为SSE2iciiN(0,1)
2(np1),且与i相互独立,根据t分布的定义,有
ti 这里iciit(np1)
SSE,对给定的显著性水平np1,当tit(np1)时,我们
2拒绝H0;反之,则接受H0.在SPSS软件的输出结果中,可以直接从
p值看出检验结果.
对于估计量i,我们还想了解它与i的接近程度如何.这就需要确定
iiciii的置信区间.由于
iiciit(np1),因而有
p{t(np1)}12,即得i的置信度为1的置信区间为
(itcii,itcii)
221.2.3.4 因变量的预测
建立回归方程,除了解自变量与因变量之间的相依关系之外,还有一项重要的应用就是预测,即对给定的自变量的值,预测对应的因变量的值.
对于线性回归模型
y01x1pxp
当我们要预测x0(1,x01,x02,的点预测值y001x01估计.可以证明:
我们可以用他x0p)所对应的因变量值y0时,
px0p,但我们一般更感兴趣的是y0的区间
y0y01x0(XX)1x0t(np1)
因而对给定的,有
p{y0y0t(np1)}121x0(XX)1x0
由此可得y0的置信度为1的预测区间为
(y0t(np1)1x0(XX)1x0,y0t(np1)1x0(XX)1x0)
221.2.3.5拟合优度
拟合优度用于检验模型对样本观测值的拟合程度.在前面的方差分析中,我们已经指出,在总离差平方和中,若回归平方和占的比例越大,则说明拟合效果越好.于是,就用回归平方和与总离差平方和的比例作为评判一个模型拟合优度的标准,称为样本决定系数(coefficient of determination)(或称为复相关系数),记为R2.
R2SSRSSE 1SSTSST 由R2的意义看来,其他越接近于1,意味着模型的拟合优度越高。于是,如果在模型中增加一个自变量,R2的值也会随之增加,这会给人一种错觉:要想模型拟合效果好,就得尽可能多引进自变量.为了防止这种倾向,人们考虑到,增加自变量必定使得自由度减少,于是又定义了引入自由度的修正的复相关系数,记为R2.
2R1
MSE MSTSSE(np1) 1SST(n1) 在实际应用中,R2达到多大才算通过了拟合优度检验,没有绝
对的标准,要看具体情况而定。模型拟合优度并不是判断模型质量的唯一标准,有时为了追求模型的实际意义,可以在一定程度上放宽对拟合优度的要求.
1.2.3.6 数据的中心化和标准化
在多元线性回归分析中,所涉及道德诸多自变量往往量纲不同,甚至差别很大,这给利用回归方程分析实际问题带来一定困难.为此,我们可以将数据进行中心化和标准化处理,然后再建立回归方程. 数据的中心化处理方法是:记xj、y为各个自变量与因变量的样本中心值,令
xijxijxj,i1,2,,n;j1,2,,p
yiyiy,i1,2,,n
如果利用没有中心化处理之前的数据建立的多元回归方程为
ˆˆxˆxˆy01122ˆx (4.19) pp 那么经过中心化处理的数据建立的回归方程即为
ˆˆxˆxˆy01122ˆx (4.20) pp 这一点不难理解:数据的中心化处理相当于将坐标原点移至样本
中心,而坐标系的平移不改变直线的斜率,只改变了截距.
数据的标准化处理公式是:
xijxijxjn,i1,2,,n;j1,2,,p
(xi12x)ijjyiyiy(yy)ii1n,i1,2,2,n
标准化的数据建立的回归方程记为
ˆxˆxˆy1122ˆx (4.21) pp 容易验证方程(4.21)与(4.19)的系数之间存在关系式
ˆj(xi1ni1nijxj)22ˆ,j1,2,j,p
(yy)i1.2.4残差分析
在前面讨论线性回归问题时,我们做了回归模型的线性假定、误差的正态性和同方差性假定等,而实际问题中所得的数据是否符合这些假定,还有待于检验.在本节和下一节中,将要解决两个问题:首先是如何验证这些假定是否得到满足?如果符合假定的话,那么参数的估计和有关的假设检验都是可靠的;如果假定不满足,我们要解决另一个重要的问题,即我们需采取怎样的措施呢?在对模型的假定进行诊断时,残差分析(又称回归诊断)起着十分重要的作用.
ˆ(InH)y,这里HX(XTX)1XT,前面已经介绍 残差向量eyyˆ,e)O等,由于过残差的基本性质,如E(e)0,Var(e)(InH)2,Cov(y实际问题中,真正的观测误差iyiE(yi)(i1,2,,n)我们并不知道,但如果模型正确,则可将ei近似看作为i,此时残差ei应该能够大致反映误差i的特性.因而我们可以利用残差的特点来考察模型的可靠性.
通过对残差进行分析,可以在一定程度上回答下列问题: (1) 回归函数线性假定的可行性; (2) 误差项的等方差假设的合理性;
(3) 误差项独立性假设的合理性; (4) 误差项是否符合正态分布; (5) 观测值中是否存在异常值;
(6) 是否在模型中遗漏了某些重要的自变量.
做残差分析时我们经常借助于残差图,它是以残差ei为纵坐标,
ˆ、xi以以其他指定的量为横坐标做出的散点图.常用的横坐标有:y及观测时间或序号.
由残差的分布可知,一般来讲e1,e2,,en之间是相关的,且它们的方差不等,从而直接用ei作比较就带来一定的麻烦,为此,人们引入标准化残差和学生化残差概念,以改进普通残差的性质.分别定义如下:
ˆ, 标准化残差:ZREieiˆ1hii(其中hii是矩阵H的第i个对角元学生化残差: SREiei素)
陈希孺等人曾指出,SRE1,SRE2,,SREn近似独立,且近似服从
N(0,1),即可以近似认为SRE1,SRE2,,SREn是来自N(0,1)的随机子样.
1.2.4.1回归函数线性的诊断
诊断回归函数是否为自变量x1,x2,,xp的线性函数时,主要采用残
ˆi,ei)大致在e0附近随机变化ˆ,e.如果在这个散点图中,点(y差图y(即无明显的趋势性),并在变化幅度不大的水平带状区域内,如图
4.2(a)所示,则可以认为回归函数的线性假定基本上是合理的.如
果这个散点图类似于图4.2(b),则表明回归函数并非线性形状,应该包含某些变量的高次项或交叉乘积项,或者考虑是否可先将y和某些自变量做变换,再建立相应的线性回归模型.
图4.2 回归散点图
1.2.4.2 误差方差齐性(homogeneity)的检验
ˆie来判断误差方差是否齐性,若残差图类 我们可以采用残差图y似于图4.2(a),则可以认为方差齐性的假设大致是成立的.如果残差图类似于图4.3,则方差齐性的假定不成立.图4.3(a)、(b)分别表示误差方差随自变量的变化而增加或减少.如果方差齐性的假定不能满足,通常有三种可以采用的处理方法.一是采用加权最小二乘法估计模型参数;二是Box-Cox变换法;这种情况的处理没有一般的方法,详细过程请参阅《近代回归分析》(陈希孺等,1987).下面我们分一元和多元的情况简要介绍加权最小二乘法.
对于一元线性回归方程来说,普通最小二乘法的离差平方和为
图4.3 误差方差随自变量变化图
Q(0,1)(yi01xi)2
i1n加权最小二乘法是在平方和中加入一个适当的权数i,以消除方差非齐性的影响,即
Q(0,1)i(yi01xi)2 (4.22)
i1n 这里观测值的权数应该是误差项方差的倒数,即i12i.在实际问题的研究中,2i通常是未知的,但是,当误差项方差随自变量水平以系统的形式变化时,我们可以利用这种关系.例如,若2ikx2i,其中k为比例系数,由于这个系数在参数估计中可以消除,所以我们取权数为i1x2i.如果某个实际问题的误差方差与x的幂函数xm成比例,其中,m为待定参数,此时可取权数为i1xmi,利用SPSS软件包可以确定幂函数的最优取值.在打开一个数据文件之后,依次点选Statistics→Regression→Weight Estimation进入估计权函数对话框,默认的幂指数m的取值为m2,1.5,1,0.5,0,0.5,1,1.5,2,这个默认值可以更改.先将自变量x与因变量y选入各自的变量框,再把x选入Weight变量框,可得最优幂指数值.
多元线性回归模型的加权离差平方和为
Qi(yi01xi1i1inpxip)2 (4.23)
多元线性回归模型中有多个自变量,通常取权函数为某个自变量xi(i1,2,,p)的幂函数,即取xmi,在x1,x2,,xp这p个自变量中,应该取哪一个自变量呢?这只需要计算每一个自变量与普通残差的等级相关系数(Spearman相关系数),选取等级相关系数最大的那个自变量构造权函数.然后利用与一元回归情形相同的方法确定最优的幂指数m.
1.2.4.3 误差独立性的检验
在回归模型中,我们总是坚定误差项是不相关的,即
Cov(i,j)0,ij.如果某个回归模型的误差项不满足这一点,则我们
称其存在自相关(或序列相关)现象.当一个回归模型的随机误差项存在自相关时,会产生以下不良的后果:
(1) 参数的估计量不再具有最小方差线性无偏性; (2) 变量的显著性检验失去意义; (3) 模型的预测失效.
自相关性的检验方法有多种,目前比较常用的有Durbin-Watson,但它仅适用于一阶自相关的情况,即随机扰动项具有如下形式
ii1ui (4.24)
由于实际问题中的i未知,所以我们首先采用普通最小二乘法估计模型,然后用残差ei近似代替i来判断是否存在自相关性.为了检
验自相关性,构造的假设是
H0:0
而构造的统计量为:
DW(eeii2ni1)2ei2n (4.25)
2i计算出该统计量的数值之后,根据样本容量n和自变量数目p查 DW分布表,得到临界值dl和du,然后按照下列准则考察计算得到的DW值,可以判断模型的自相关状态.
准则:若0DWdl, 则存在正自相关 若dlDWdu, 不能确定 若4duDW4dl, 不能确定 若4dlDW4, 存在负自相关
从上面的准则可以看出,当值为2左右时,模型一般不存在一阶自相关.而且,经验表明,如果模型不存在一阶自相关,一般也不存在高阶序列相关.
如果模型存在自相关,首先要查明原因.如果是回归模型选用不当,则应该用适当的回归模型;如果是缺少重要的自变量,则应加入相应的自变量.如果以上方法都不能消除自相关性,则需要采用新的方法估计模型,如广义最小二乘法、差分法、迭代法、移动平均法等等,在此只介绍一阶差分法和迭代法.对其他方法有兴趣的读者可以参阅时间序列方面的教材或著作.
差分法用增量数据代替原来的样本数据,将原来的回归模型变为
差分形式的模型.一阶差分法适用于原模型存在较高程度的一阶自相关的情况.
令yiyi1yi,xk,ixk,i1xk,i,k1,2,,p;i1,2,,n1 建立y关于xk的线性回归方程
y1x12x2pxp (4.26)
如果这个差分模型通过了各种检验和诊断,就可以利用它代替原模型做预测.
这里以一元线性回归模型为例介绍迭代法.先求出y关于x的一元
ˆ01x,计算出残差e1,e2,,en之间的一阶自相关系线性回归方程y数,再令
yiyi1yi,xixi1xi,i1,2,,n1
建立y关于x的一元线性回归方程y01x,通过残差
e1,e2,,en1检验这个回归方程是否存在自相关,如果y之间不相关,
则迭代结束;如果存在自相关,则需计算残差e1,e2,,en1之间的自相关系数,重复上述步骤,直到因变量序列不存在自相关性为止.
1.2.4.4 误差项正态性的检验
检验总体分布是否为正态分布的方法比较多,下面介绍其中的两种.
在前面我们指出过,当yN(X,2In)时,标准化残差
SRE1,SRE2,SRE1,SRE2,,SREn可近似看成来自N(0,1)的随机子样,从而可通过检验,SREn所属总体是否为N(0,1)来检验模型误差的正态性.
方法一:频率检验法.
可以粗略的统计一下SRE1,SRE2,,SREn中正负个数是否大致各占一半,介于(-1,1)间的比例是否约为68%,介于(-2,2)间的比例是否为95%,介于(-3,3) 间的比例是否约为99%,不过这种方法比较粗糙. 方法二:正态概率图检验法.
,e,,e 首先,将残差e1,e2,,en从小到大排列为e(1)(2)(n);其次,对于ˆZ(i0.5n),每个i1,2,,n,计算q(i)其中Z(i0.5n)为标准正态分布
的下侧i0.5n分位数,即满足
12Z(i0.5)nex22i0.5 n然后,以q为纵坐标,e为横坐标做散点图,即为残差的正态概率图.从直观上看,如果点(q(i),e(i))(i1,2,,n)基本落在一条直线上,则可认为误差正态性的假定是合理的.当然还可以进一步计算e(i)和
q(i)(i1,2,若,n)之间的相关系数来判断它们之间的线性关系的强弱,
相关系数接近于1,则说明点(q(i),e(i))近似落在一条直线上.
1.2.4.5 多重共线性的处理
多元线性回归模型中,假定自变量之间线性无关,因而资料矩阵X是满秩的.如果存在不全为零的p个常数c1,,cp,使得
c1xi1c2xi2cpxip0,i1,2,,n
则自变量x1,x2,,xp之间存在着完全的多重共线
(Multicollinearity).在实际问题中完全共线性的情况并不多见,常见的是近似的多重共线关系,即存在不全为零的p个常数c1,,cp,
使得
c1xi1c2xi2cpxip0,i1,2,,n
如果回归模型y01x1pxp存在完的多重共线性,则资
料阵X的秩rank(X)p1,故(XTX)1不存在,无法得到回归参数的估计量.对于近似多重共线性的情况,此时虽有rank(X)p1,但
XTX0,从而矩阵(XTX)1的主对角线上的元素很大,使得估计的参
ˆ)2(XTX)1的对角线上元素也很大,数向量ˆ的协方差阵D(导致普
通最小二乘参数估计量并非有效.
如何检验是否存在多重共线性?已经由不少的可行的方法,目前常用的有方差扩大因子法和特征根判别法.在此只介绍方差扩大因子(VIF)法.
对自变量做中心标准化处理,则XTX(rij)为自变量的相关矩阵,记
C(cij)(XTX)1
称其对角线元素VIFjcij1(1Rj2)(j1,2,,p)为自变量xj的方差扩大因子(Variance Inflation Factor),其中Rj2是把xj作为因变量与其余p1个自变量做线性回归所得到的复相关系数.VIFj反映了没个变量所受到的多重共线性的影响的大小.对每一个自变量xj,都有VIFj1.也可以用p个自变量所对应得方差扩大因子的平均数来度
1p量多重共线性.当VIFVIFj远远大于1时,就表示存在严重的多
pj1重共线性问题.
当发现自变量存在严重的多重共线性时,可以通过剔除一些不重
要的自变量、增大样本容量、对回归系数做有偏估计(如采用岭回法、主成分法、偏最小二乘法等)等方法来克服多重共线性.
1.2.5 自变量的选择与逐步回归
在前面讨论了线性回归模型的估计方法和检验问题,但在应用回归分析处理实际问题时,首先要解决的问题是自变量的选择和回归函数的选择.由于本书中,我们只介绍线性回归模型,在此,我们主要考虑自变量的选择问题.
在多元线性回归分析中,一方面,为了获得较全面的信息,我们总是希望模型中包含尽可能多的自变量;另一方面,考虑到自变量越多,收集数据存在困难以及成本大大增加,加之,有些自变量与其他自变量作用重叠.如果把它们都引入模型,不只是增加了计算量,还对模型参数的估计和模型的预测带来不利影响.这样一来,我们自然希望模型中选人最合适的自变量,建立起既合理又简单实用的回归模型.下面我们介绍一些自变量选择的准则,以及相应的“最优”自变量子集的计算方法.
1.2.5.1 自变量选择对估计和预测的影响
设我们研究某一实际问题时,根据经验或专业知识,确定一切可能对因变量y有影响的因素共有p个,记为x1,x2,,xp,它们与y一起构成线性回归模型
y01x1pxp (4.33)
我们称这个y与所有自变量的回归模型为全模型.
如果我们从所有可供选择的p个变量中挑出q个,记为x1,x2,,xq,建立如下的回归模型
y01x1qxq (4.34)
我们称其为选模型.
利用回归分析解决问题时,自变量的选择问题可以看成是应该采用全模型还是选模型去描述实际问题.下面我们不加证明的给出几个结论,说明自变量的选择对参数估计和对因变量预测的影响. (1)
模型正确而误用选模型的情况.
结论1:当全模型正确时,选模型的回归系数的最小二乘 估计是全模型相应参数的有偏估计,选模型的预测也有偏的.
结论2:当全模型正确时,选模型的参数估计和预测残差以及均方误差都有较小的方差.
(2)选模型正确而误用全模型的情况.如果选模型正确,怎其参数估计和预测值都是无偏的,此时全模型的参数估计和预测都是有偏估计.而且,全模型的预测值的方差和均方差都要大于选模型的相应方差.
以上结论的证明参见《近代回归分析》(陈希孺等,1987). 上述结论告诉我们,建立回归方程时,丢掉那些对因变量影响不大,或虽有影响,但难于观测的自变量是有利的.
1.2.5.2自变量的选择准则
1 若在一个回归问题中有m个变量可供选择,那么我们可以建立Cm2个不同的一元线性回归方程,Cm个不同的二元线性回归方程,……,mCm个m元线性回归方程,所有可能的回归方程共有
12CmCmmCm2m1
个,前面提到的多元线性回归中选变量也即选模型,即从这2m1个回归方程中选取“最优”的一个,为此就需要有选择的准则. 下面从不同的角度给出选择的准则.
从拟合角度考虑,可以采用修正的复相关系数达到最大的准则. 准则1 修正的复相关系数Ra2达到最大.
与这个准则等价的准则是:均方残差MSE达到最小,因为
2Ra1MSE
SSTn1从这个关系式容易看出,Ra2达到最大时MSE达到最小.
从预测角度考虑,可以采用预测平方和达到最小的准则以及Cp准则.
准则2 预测平方和PRESSp达到最小.
预测平方和(Prediction Sum of Squares)准则的基本思想是:对于给定的某p个自变量x1,x2,,xp,在样本数据中删除第i组观测值
(xi1,xi2,,xip;y)后利用这p个自变量和y的其余n1组观测值建立线性
ˆi,回归方程,并利用所得的回归方程对yi做预测,若记此预测值为y则预测误差为
ˆ(i) diyiy 依次取i1,2,,n,则得到n个预测误差.如果包含这p个自变量的
回归模型预测效果较好,则所有di(i1,2,,n)的误差平方和达到或接近最小.即选取PRESSp使得
n2inˆ(i))2 PRESSpd(yiyi1i1(4.35)
达到或接近最小的回归方程作为最优回归方程. 准则3(准则) 定义Cp统计量为
CpSSEpMSE(x1,x2,,xm)(n2p2) (4.36)
其中SSEp是包含p个自变量的回归方程的残差平方和,
MSE(x1,x2,,xm)表示含有所有m个自变量的回归方程的均方残差.
Cp准则要求选择Cp值小,且 Cpp小的回归方程.
从极大似然估计的角度考虑,可以采用赤池信息量准则(AIC准则).
准则4(AIC准则) 赤池信息量达到最小.
这个准则由日本统计学家赤池(Akaike)提出,人们称它为Akaike Imformation Criterion,简称为AIC.AIC准则通常定义为
ˆ,x)2p (4.37) AIC2lnL(Lˆ,x)表示模型的对数似然函数的极大值,p表示模型中独立的其中L(L参数的个数.
在实用中,也经常用下式计算赤池信息量
AICnln(SSEp)2p (4.38)
选择AIC值最小的回归方程为最优回归方程.
1.2.5.3 逐步回归
当自变量的个数不多时,利用某种准则,从所有可能的回归模型中寻找最优回归方程是可行的.但若自变量的数目较多时,求出所有的回归方程式很不容易的.为此,人们提出了一些较为简便实用的快速选择最优方程的方法,下面我们简单的介绍一下“前进法”和“后退法”,再详细介绍“逐步回归法”. 1. 前进法和后退法
前进法的思想是这样的:设所考虑的回归问题中,对因变量y有影响的自变共有m个,首先将这m个自变量分别与y建立m个一元线性回归方程,并分别计算出这m个一元回归方程的偏F检验值,记为
{F1(1),F2(1),(1),Fm},若其中偏F值最大者(为方便叙述起见,不妨设为
F1(1))所对应的一元线性回归方程都不能通过显著性检验,则可以认
为这些自变量不能与y建立线性回归方程;若该一元方程通过了显著性检验,则首先将变量x1引入回归方程;接下来由y与x1以及其他自变量xj(j1)建立m1个二元线性回归方程对这m1个二元回归方程中的x2,x3,,xm的回归系数做偏F检验,检验值记为{F2(2),F3(2),,Fm(2)},若其中最大者(不妨设为F2(2))通过了显著性检验,则又将变量x2引入回归方程,依此方法继续下去,直到所有未被引入方程的自变量的偏F值都小于显著性检验的临界值,即再也没有自变量能够引入 回归方程为止.得到的回归方程就是最终确定的方程.
后退法与前进法相反,首先用m个自变量与y建立一个回归方程,
然后在这个方程中剔除一个最不重要的自变量,接着又利用剩下的
m1个自变量与y建立线性回归方程,再剔除一个最不重要的自变
量,依次进行下去,直到没有自变量能够剔除为止.
前进法和后退法都有其不足,人们为了吸收这两种方法的优点,克服它们的不足,提出了逐步回归法. 2. 逐步回归法
逐步回归法的基本思想是有进有出,具体做法是将变量一个一个得引入,引入变量的条件是通过了偏F统计量的检验.同时,每引入一个新的变量后,对已入选方程的老变量进行检验,将经检验认为不显著的变量剔除,此过程经过若干步,直到既不能引入新变量,又不能剔除老变量为止.
设模型中已有l1个自变量,记这l1个自变量的集合为A,当不在A中的一个自变量xk加入到这个模型中时,偏F统计量的一般形式为
FSSE(A)SSE(A,xk)SSR(xkA) (4.39) SSE(A,xk)nl1MSE(A,xk)下面我详细叙述逐步回归法的具体步骤.
首先,根据一定显著水平,给出偏 统计量的两个临界值,一个用作选取自变量,记为FE;
另一个用作剔除自变量,记为FD.一般地,取FEFD,然后按下列步骤进行.
第一步:对每个自变量xi(1im),拟合m个一元线性回归模型
y0ixi (4.40)
这时,相当于统计量(4.39)中集合A为空集,因此,SSE(A)SST,故SSR(xiA)SSR(xi),MSE(A,xi)MSE(xi),对每一个i,计算
Fi(1)SSR(xi),i1,2,MSE(xi),m (4.41)
设
Fi1(1)max{Fi(1)}
1i1m 若Fi(1)FE,则选择含自变量xi的回归模型为当前模型,否则,没
11有自变量能进入模型,选择过程结束,即认为所有自变量对 的影响均不显著.
第二步:在第一步的选出模型的基础上,再将其余的m1个自变量分别加入到此模型中个,得到m1个二元回归方程,计算
Fi(2)SSR(xixi1)MSE(xi1,xi),ii1
(4.41) 设
Fi2(2)max{Fi(2)}
ii1 若Fi(2)FE,则选取过程结束.第一步选择的模型为最优模型.若
2Fi2(2)FE,则将自变量xi选入模型中,即得第二步的模型
2y0i1xi1i2xi2
(4.42)
进一步考察,当xi进入模型后,xi对y的影响是否仍然显著.为此
21计算
Fi1(2)SSR(xi1xi2)MSE(xi1,xi2) (4.43)
若Fi(2)FD ,则剔除xi.这时仅含有xi的回归模型为当前模型.
212 第三步:在第二步所选模型的基础上,在将余下的m2个自变量逐个加入,拟合各个模型并计算F统计量值,与FE比较决定是否有新变量引入,如果有新变量进入模型,还需要检验原模型中的老变量是否因这个新变量的进入而不再显著,那样就应该被剔除. 重复以上步骤,直到没有新的自变量能进入模型,同时在模型之中的老变量都不能剔除,则结束选择过程,最后一个模型即为所求的最优回归模型.
1.3 SPSS中实现过程 1.3.1 研究问题
1.3.2 实现步骤
1.3.3 小结
一元线性回归只涉及一个自变量的回归问题;多元线性回归用于解决两个或两个以上自变量对一个因变量的数量变化关系问题;非线性回归主要解决在非线性相关条件下,自变量对因变量的数量变化关系;时间序列的曲线回归用于研究因变量与时间之间的变化关系;当遇到非数量型变量时,通过引入虚拟变量来构造含虚拟变量的回归模型;Logistic回归分析是对定性变量进行的回归分析。
SPSS中“Analyze”/“Regression”菜单可用于回归统计分析。其中,一元线性回归、多元线性回归和含虚拟变量的回归分析可由“Linear”子菜单完成;非线性回归分析、曲线估计和时间序列的曲线估计可由“Curve Estimation”子菜单完成;逻辑回归分析可由“Binary Logistic”子菜单完成。
因篇幅问题不能全部显示,请点此查看更多更全内容