1.一般检验
假设系数为0,t比较大则拒绝假设,认为系数不为0. 假设系数为0,P比较小则拒绝假设,认为系数不为0. 假设方程不显著,F比较大则拒绝假设,认为方程显著。 2.小样本运用OLS进行估计的前提条件为:
(1)线性假定。即解释变量与被解释变量之间为线性关系。这一前提可以通过将非线性转换为线性方程来解决。
(2)严格外生性。即随机扰动项独立于所有解释变量:与解释变量之间所有时候都是正交关系,随机扰动项期望为0。(工具变量法解决)
(3)不存在严格的多重共线性。一般在现实数据中不会出现,但是设置过多的虚拟变量时,可能会出现这种现象。Stata可以自动剔除。
(4)扰动项为球型扰动项,即随即扰动项同方差,无自相关性。 3.大样本估计时,一般要求数据在30个以上就可以称为大样本了。大样本的前提是
(1)线性假定
(2)渐进独立的平稳过程
(3)前定解释变量,即解释变量与同期的扰动项正交。 (4)E(XiXit)为非退化矩阵。
(5)gt为鞅差分序列,且其协方差矩阵为非退化矩阵。
与小样本相比,其不需要严格的外生性和正太随机扰动项的要求。 4.命令
稳健标准差回归:reg y x1 x2 x3, robust 回归系数与OLS一样,但标准差存在差异。如果认为存在异方差,则使用稳健标准差。使用稳健标准差可以对大样本进行检验。
对单个系数进行检验:test lnq=1 线性检验:testnl _b[lnpl]=_b[lnq]^2
5.如果回归模型为非线性,不方便使用OLS,则可以采取最大似然
估计法(MLE),或者非线性最小二乘法(NLS)
6.违背经典假设,即存在异方差的情况。截面数据通常会出现异方差。
因此检验异方差可以:
(1)看残差图,但只是直观,可能并不准确。
rvfplot (residual-versus-fitted plot) 与拟合值的散点图 rvpplot varname (residual-versus-predictor plot) 与解释变量的散点图
扰动项的方差随观测值而变动,表示可能存在异方差。 (2)怀特检验:
estat imtest, white (post-estimation information matrix test) P比较小,则拒绝同方差假设,表示存在异方差,不能用OLS。反之则证明为同方差。(3)BP检验
estat hettest,iid (默认设置为使用拟合值y^)
estat hettest, rhs iid (使用方程右边的解释变量,而不是y^) estat hettest [ varlist],iid (使用某个指定的解释变量) P小,则拒绝原假设。 如果存在异方差,则可以: (1)使用OLS+稳健标准差robust (2)广义最小二乘法(GLS) (3)加权最小二乘法(WLS) predict el, res (预测残差) g e2=el^2 辅助回归: g lne2=log(e2) reg lne2 lnq, noc
predict lne2f 计算辅助回归的拟合值 g e2f=exp(lne2f) 去掉对数即权重之倒数 reg lntc lnq lnpl lnpk lnpf [aw=1/e2f]
reg y x1 x2 x3 [aw=1/var] (aw表示analytical weight, var表示
随即扰动项的方差。) (4)可行广义最小二乘法(FGLS)
6.自相关
时间序列中容易出现自相关,而截面数据也可能存在空间自相关。人为处理数据如移动平均等做法也可能导致自相关。
检验自相关可以: (1)作图,但并不严格。
定义滞后算子L.(只有时间序列数据和面板数据才能定义时间变量。)
tsset yaear
一阶差分:D.x=xt-xt-1 D2. X=xt-xt-2 LD. 表示一阶差分的滞后值 画图:scatter el L.el ac el (看自相关图) pac el (看偏相关图) (2)BG检验
estat bgodfrey (默认p=1) estat bgodfrey,lags(p)
estat bgodfrey,nomiss0 (使用不添加0的BG检验)
使用命令ac 查看自相关图,或者设置较大的p值进行显著性检验,t期不显著了,则选择P=T-1
统计检验P值小,则拒绝假设。 (3)box-pierce Q检验/ Ljung-Box Q reg y x1 x2 x3 predict el, resid
wntestq el (使用stata提供的默认滞后期) wntestq el, lags(p) (使用自己设定的滞后期)
(4)DW检验:现在已经不常用,因为其只能检验一阶自相关。 estat dwatson 自相关的处理方法: (1)使用
OLS+异方差自相关稳健的标准差
(Heteroskedasticity and Autocorrelation Consistent Standard Error, HAC)
newey y x1 x2 x3, lag(p) (HAC标准差,必须制定滞后阶数p) 滞后期数选择n^1/4
(2)使用OLS+聚类稳健的标准差(cluster robust standard error)面板数据中经常使用聚类稳健的标准差。
reg y x1 x2 x3, cluster(state) (聚类稳健标准差,假设“state”为聚类变量)
(3)使用可行广义最小二乘法(FGLS) prais y x1 x2 x3 (使用默认的PW估计法) praise y x1 x2 x3, corc (使用CO估计法)
(4)修改模型设定,可能自相关是由于遗漏了自相关的解释变量。 7多重共线性
在回归后,使用命令VIF
estat vif 经验表示,vif <10, 则不存在多重共线性。
如果存在多重共线性,但是只关心整个方程预测被解释变量的能力,或者只关心变量的显著性,则不必理会多重共线性,因为多重共线性只是对单个解释变量的解释能力估计出现了偏差。存在多重共线性,则逐个剔除。
8.遗漏变量(解决扰动项严格外生性的问题)
遗漏变量与解释变量不相关时,扰动项与解释变量不相关,OLS估计依然一致,但扰动项方差过大,影响估计的精确度
如果遗漏变量与解释变量相关,扰动项与解释变量则会相关,导致OLS估计不再一致。出现“遗漏变量偏差”。
所以可以不研究某些解释变量而只对感兴趣的解释变量进行研究,但是重要的是遗漏解释变量不能与解释变量相关。解决遗漏解释变量的方法有:
(1)加入尽可能多的控制变量(control varible),从理论上说明遗漏变量与扰动项不相关,或很弱的相关
(2)使用代理变量(proxy variable),这在控制变量不可得的
时候采用,如用IQ 代替能力
(3)工具变量法
(4)使用面板数据(短面板、长面板、动态面板) (5)随即实验和自然实验
9.选择解释变量的个数的时候,要选择适当的方式。
(1)按照变量个数使得矫正可决系数最大的准则选择个数(如果加入变量,反倒A-R变小,则去掉加入的变量。)
(2)赤池信息准则(AIC akaike Information Criteria) (3)贝叶斯信息准则(Bayesian Information Criteria) (4)汉南-昆信息准则(Hanan-Quinn Information Criteria)但这一准则不常用
命令:estat ic
取AIC BIC 最大时候的变量个数 10.处理极端数据: reg y x1 x2 x3
predict lev, leverage (列出所有解释变量的影响力值) gsort –lev (将所有的观测值按照lev的降序排列) sum lev (看LVE的最大值和平均值) list lev 1/3 (列出影响力最大的三个值) 可以将极端数据加入和省略进行对比。 10虚拟变量
M个定性的量,最多可以有(M-1)个虚拟变量 设置虚拟变量:generate d=(year>=1978)
如希望将每个省设置为虚拟变量,则需要:tabulate province, generate(pr)
回归简化为:reg y x1 x2 x3 pr2-pr31 11.工具变量法
这可以解决扰动项与自变量的相关问题,设置的工具变量需要与扰动项无关而与内生解释变量相关。传统的工具变量法一般通过两阶段最小二乘法TSLS、2SLS(two stage least square)。第一阶段,
工具变量对内生解释变量回归;第二阶段,被解释变量对工具变量的拟合值进行回归。多个工具变量的线性组合仍然可以作为工具变量。
命令:ivregress 2sls depvar [varlist1] (varlist2=inslist) Depvar为被解释变量,varlist1为外生解释变量,varlist2为内生解释变量,instlist 为工具变量。如:
ivregress 2sls y x1 (x2 = z1 z2)
ivregress 2sls y x1 (x2 x3 = z1 z2 z3 z4), r first (r表示用异方差的标准差,first表示在结果中显示第一阶段的回归。)
检验工具变量与解释变量的相关性:即检验工具变量是否为弱工具变量,
命令:estat firststage, all forcenonrobust (all表示显示每个内生变量的统计量,而非仅仅所有内生变量综合的统计量,forcenonrobust表示及时在进行工具变量法时用了稳健标准差,也仍然允许计算estat firststage)
解决弱工具变量的方法包括 A.寻找更强的工具变量
B.弱工具变量较多,则舍弃弱工具变量,
C.用有限信息最大似然估计法(Limited information maximum likelihood estimation, LIML)LIML与2SLS渐进等价,但在弱工具变量的情况下,LIML的小样本性质可能优于2SLS. 命令为:ivregress liml depvar [varlist 1] (varlist2 = instlist)
过度识别(即多余的工具变量的个数)命令为:estat overid 但并不能告诉哪些工具变量无效。
使用工具变量的前提是存在内生解释变量(即解释变量与扰动项相关),这也需要检验。如果所有解释变量都是外生变量则用OLS比用工具变量法更有效,反之应该用工具变量法。豪斯曼检验就是假设所有解释变量都为外生变量。
豪斯曼检验的stata命令: reg y x1 x2
estimates store ols (存储OLS的结果)
ivregress 2sls y x1 (x2= z1 z2) (假设怀疑x2为内生变量) estimates store iv (存储2SLS的结果)
hausman iv ols, constant sigmamore (根据存储的结果进行豪斯曼检验)
但uguo存在异方差,则OLS并不是最有效的,传统额豪斯曼检验不适用于异方差的情形,解决方法是“自助法”;或者使用“杜宾-吴-豪斯曼DWH检验”也可以适用于存在异方差的情况。命令:estat endogenous
在球型扰动项的假定下,2SLS是最有效的,但是如果扰动项存在异方差或者自相关,则广义矩估计(generalized method of moments, GMM)更有效。GMM与2SLS的关系就相当于GLS与OLS之间的关系。
因篇幅问题不能全部显示,请点此查看更多更全内容