搜索
您的当前位置:首页正文

非线性回归模型的线性化

来源:爱go旅游网
非线性回归模型的线性化

以上介绍了线性回归模型。但有时候变量之间的关系是非线性的。例如 yt =  0 + 1xt1+ ut yt =  0 e1xt+ ut

上述非线性回归模型是无法用最小二乘法估计参数的。可采用非线性方法进行估计。估计过程非常复杂和困难,在20世纪40年代之前几乎不可能实现。计算机的出现大大方便了非线性回归模型的估计。专用软件使这种计算变得非常容易。但本章不是介绍这类模型的估计。

另外还有一类非线性回归模型。其形式是非线性的,但可以通过适当的变换,转化为线性模型,然后利用线性回归模型的估计与检验方法进行处理。称此类模型为可线性化的非线性模型。下面介绍几种典型的可以做线性化处理的非线性模型。

⑴ 指数函数模型

yt = aebxtut (4.1) b>0 和b<0两种情形的图形分别见图4.1和4.2。显然xt和yt的关系是非线性的。对上式等号两侧同取自然对数,得

Lnyt = Lna + b xt + ut (4.2)

令Lnyt = yt*, Lna = a*, 则

yt* = a* + bxt + ut (4.3) 变量yt* 和xt已变换成为线性关系。其中ut表示随机误差项。

50Y140302010X001234

bxtut

, (b < 0)

图4.1 yt =aebxtut, (b > 0) 图4.2 yt =ae ⑵ 对数函数模型

yt = a + b Ln xt + ut (4.4)

b>0和b<0两种情形的图形分别见图4.3和4.4。xt和yt的关系是非线性的。令xt* = Lnxt, 则

yt = a + b xt* + ut (4.5)

变量yt 和xt* 已变换成为线性关系。

图4.3 yt = a + b Lnxt + ut , (b > 0) 图4.4 yt = a + b Lnxt + ut , (b < 0)

⑶ 幂函数模型

yt = a xt beut (4.6) b取不同值的图形分别见图4.5和4.6。xt和yt的关系是非线性的。对上式等号两侧同取对数,得 Lnyt = Lna + b Lnxt + ut (4.7) 令yt* = Lnyt, a* = Lna, xt* = Lnxt, 则上式表示为

yt* = a* + b xt* + ut (4.8) 变量yt* 和xt* 之间已成线性关系。其中ut表示随机误差项。(4.7) 式也称作全对数模型。

图4.5 yt = a xt bet 图4.6 yt = a xt bet

uu

⑷ 双曲线函数模型

1/yt = a + b/xt + ut (4.9)

也可写成,

yt = 1/ (a + b/xt + ut) (4.10) b>0情形的图形见图4.7。xt和yt的关系是非线性的。令yt* = 1/yt, xt* = 1/xt,得

yt* = a + b xt* + ut

已变换为线性回归模型。其中ut表示随机误差项。

图4.7 yt = 1/ (a + b/xt ), (b > 0) 图4.8 yt = a + b/xt , (b > 0)

双曲线函数还有另一种表达方式,

yt = a + b/xt + ut (4.11)

b>0情形的图形见图4.8。xt和yt的关系是非线性的。令xt* = 1/xt,得

yt = a + b xt* + ut 上式已变换成线性回归模型。

⑸ 多项式方程模型

一种多项式方程的表达形式是

yt = b0 +b1 xt + b2 xt2 + b3 xt3 + ut (4.12)

其中b1>0, b2>0, b3>0和b1<0, b2>0, b3<0情形的图形分别见图4.9和4.10。令xt 1 = xt,xt 2 = xt2,xt 3 = xt3,上式变为 yt = b0 +b1 xt 1 + b2 xt 2 + b3 xt 3 + ut (4.13) 这是一个三元线性回归模型。如经济学中的总成本曲线与图4.9相似。

图4.9 yt = b0 +b1 xt + b2 xt2 + b3 xt3 + ut 图4.10 yt = b0 + b1 xt + b2 xt2 + b3 xt3 + ut

另一种多项式方程的表达形式是

yt = b0 + b1 xt + b2 xt2 + ut (4.14)

其中b1>0, b2>0和b1<0, b2<0情形的图形分别见图4.11和4.12。令xt 1 = xt,x t 2 = xt 2,上式线性化为,

yt = b0 + b1 xt1 + b2 xt2 + ut (4.15) 如经济学中的边际成本曲线、平均成本曲线与图4.11相似。

图4.11 yt = b0 +b1xt + b2xt2 + ut 图4.12 yt = b0 + b1xt + b2xt2 + ut

⑹ 生长曲线 (logistic) 模型

k yt = (4.16)

1ef(t)ut一般f(t) = a0 + a1 t + a2 t 2 + … + an t n,常见形式为f(t) = a0 - a t

kk yt = = (4.17) (a0at)uuatut1e1be其中b = ea0。a > 0情形的图形分别见图4.13和4.14。美国人口统计学家Pearl和Reed广泛研究了有机体的生长,得到了上述数学模型。生长模型(或逻辑斯谛曲线,Pearl-Reed曲线)常用于描述有机体生长发育过程。其中k和0分别为yt的生长上限和下限。Limyt= k,

tLimyt= 0。a, b 为待估参数。曲线有拐点,坐标为(

tLnbk,),曲线的上下两部分对称于拐a2点。

图4.13 yt = k / (1 +beatut

atut) 图4.14 yt = k / (1 +be)

为能运用最小二乘法估计参数a, b,必须事先估计出生曲线长上极限值k。线性化过程如下。当k给出时,作如下变换,

k/yt = 1 + beatut 移项, k/yt - 1 = beatut

取自然对数,Ln ( k/yt - 1) = Lnb - a t + ut (4.18) 令yt* = Ln ( k/yt - 1), b* = Lnb, 则

yt* = b* - a t + ut (4.19)

此时可用最小二乘法估计b*和a。

图4.15 内地5月1日至28日每天非典数据一览

⑺ 龚伯斯(Gompertz)曲线

英国统计学家和数学家最初提出把该曲线作为控制人口增长的一种数学模型,此模型可用来描述一项新技术,一种新产品的发展过程。曲线的数学形式是,

atbe yt =ke

atbe 图4.15 yt =ke

曲线的上限和下限分别为k和0,Limyt= k, Limyt= 0。a, b 为待估参数。曲线有拐点,坐

tt标为(

Lnbk,),但曲线不对称于拐点。一般情形,上限值k可事先估计,有了k值,龚伯aeatbeyt / k = e,

atbe k/yt = e

斯曲线才可以用最小二乘法估计参数。线性化过程如下:当k给定时,

Ln (k/yt) = beat, Ln[Ln(k/yt)] = Lnb - a t

令y*= Ln[Ln(k/yt)], b* = Lnb,则

y* = b* - a t

上式可用最小二乘法估计b* 和 a。 Cobb-Douglas生产函数

下面介绍柯布−道格拉斯(Cobb-Douglas)生产函数。其形式是

Q = k L C 1-  (4.24)

其中Q表示产量;L表示劳动力投入量;C表示资本投入量;k是常数;0 < < 1。这种生产函数是美国经济学家柯布和道格拉斯根据1899-1922年美国关于生产方面的数据研究得出的。的估计值是0.75,的估计值是0.25。更习惯的表达形式是

yt =0xt11xt22eut (4.25)

这是一个非线性模型,无法用OLS法直接估计,但可先作线性化处理。上式两边同取对数,得:

Lnyt = Ln0 + 1 Lnxt 1 + 2 Lnxt 2 + ut (4.26)

取 yt* = Lnyt, 0* = Ln 0, xt 1* = Ln xt 1, xt 2* = Ln xt 2,有

yt*= 0* +1 xt 1* + 2 xt 2* + ut (4.27)

上式为线性模型。用OLS法估计后,再返回到原模型。若回归参数 1 + 2 = 1,称模型为规模报酬不变型(新古典增长理论); 1 + 2 > 1,称模型为规模报酬递增型; 1 + 2 < 1,称模型为规模报酬递减型。

对于对数线性模型,Lny = Ln0 + 1 Lnxt1 + 2 Lnxt2 + ut ,1和2称作弹性系数。以1

为例,

xt1ytyt1ytLnytyt/yt1 = = = = (4.28) 1yxLnxt1x/xxt1xt1tt1t1t1可见弹性系数是两个变量的变化率的比。注意,弹性系数是一个无量纲参数,所以便于在不

同变量之间比较相应弹性系数的大小。

对于线性模型,yt = 0 + 1 xt1 + 2 xt2 + ut ,1和 2称作边际系数。以1为例,

1 =

yt (4.29) xt1通过比较(4.28)和(4.29)式,可知线性模型中的回归系数(边际系数)是对数线性回归模型中弹性系数的一个分量。

例1:此模型用来评价台湾农业生产效率。用台湾1958-1972年农业生产总值(yt),劳动力(xt1),资本投入(xt2)数据(见表4.1)为样本得估计模型, Lnyt= -3.4 + 1.50 Lnxt1 + 0.49 Lnxt2 (4.30) (2.78) (4.80) R2 = 0.89, F = 48.45 还原后得,

ˆt= 0.713 xt11.50 xt20.49 (4.31) y因为1.50 + 0.49 = 1.99,所以,此生产函数属规模报酬递增函数。当劳动力和资本投入都增

加1%时,产出增加近2%。

例2:用天津市工业生产总值(Yt),职工人数(Lt),固定资产净值与流动资产平均余额(Kt)数据 (1949-1997) 为样本得估计模型如下:

Ln Yt = 0.7272 + 0.2587Ln Lt + 0.6986 LnKt

(3.12) (3.08) (18.75) R2 = 0.98, s.e. = 0.17, DW = 0.42, F = 1381.4 因为0.2587 + 0.6986 = 0.9573,所以此生产函数基本属于规模报酬不变函数。

例3:硫酸透明度与铁杂质含量的关系(摘自《数理统计与管理》1988.4, p.16)

某硫酸厂生产的硫酸的透明度一直达不到优质指标。经分析透明度低与硫酸中金属杂质的含量太高有关。影响透明度的主要金属杂质是铁、钙、铅、镁等。通过正交试验的方法发现铁是影响硫酸透明度的最主要原因。测量了47个样本,得硫酸透明度(y)与铁杂质含量(x)的散点图如下(file:nonli01):

(1) y = 121.59 - 0.91 x (10.1) (-5.7)

R2 = 0.42, s.e. = 36.6, F= 32

(2) 1/y = 0.069 - 2.37 (1/x)

(18.6) (-11.9)

R2 = 0.76, s.e. = 0.009, F= 142

(3)y = -54.40 + 6524.83 (1/x)

(-7.2) (16.3)

(4)Lny = 1.99 + 104.5 (1/x)

(22.0) (21.6)

R2 = 0.86, s.e. = 18.2, F= 266

R2 = 0.91, s.e. = 0.22, F= 468

还原,Lny = Ln(7.33) + 104.5 (1/x)

y = 7.33

1104.5()xe

(5)非线性估计结果是 y = 8.2965

1100.1()xe

EViews命令Y=C(1)*EXP(C(2)*(1/X))

R2 = 0.96,

例4 中国铅笔需求预测模型(非线性模型案例,file:nonli6)

中国从上个世纪30年代开始生产铅笔。1985年全国有22个厂家生产铅笔。产量居世界首位(33.9亿支),占世界总产量的1/3。改革开放以后,铅笔生产增长极为迅速。1979-1983年平均年增长率为8.5%。铅笔销售量时间序列见图4.21。1961-1964年的销售量平稳状态是受到了经济收缩的影响。文革期间销售量出现两次下降,是受到了当时政治因素的影响。1969-1972年的增长是由于一度中断了的中小学教育逐步恢复的结果。1977-1978年的增长是由于高考正式恢复的结果。1981年中国开始生产自动铅笔,对传统铅笔市场冲击很大。1979-1985年的缓慢增长是受到了自动铅笔上市的影响。

初始确定的影响铅笔销量的因素有全国人口、各类在校人数、设计人员数、居民消费水平、社会总产值、自动铅笔产量、价格因素、原材料供给量、政策因素等。经过多次筛选、组合和逐步回归分析,最后确定的被解释变量是yt(铅笔年销售量,千万支);解释变量分别是xt1(自动铅笔年产量,百万支);xt2(全国人口数,百万人);xt3(居民年均消费水平,元);xt4(政策变量)。因政策因素影响铅笔销量出现大幅下降时,政策变量取负值。例如1967、1968年的xt4值取-2,1966、1969-1971、1974-1977年的xt4值取-1)。

由图4.22知中国自生产自动铅笔起,自动铅笔产量与铅笔销量存在线性关系。由图4.23知全国人口与铅笔销量存在线性关系。说明人口越多,对铅笔的需求就越大。由图4.24知居民年均消费水平与铅笔销量存在近似对数的关系。散点图说明居民年均消费水平越高,则铅笔销量就越大。但这种增加随着居民消费水平的增加变得越来越缓慢。图4.25显示政策变量与铅笔销量也呈线性关系。

35030025020015010050626466687072747678808284Y

铅笔销售量时间序列(1961-1985)(文件名nonli6)

400Y300400Y30020020010010000102030X140

0600X270080090010001100

Y, X1散点图 Y, X2散点图

400Y300300400Y200200100X320030040050010001000-2.5X4-2.0-1.5-1.0-0.50.0Y, X3散点图 Y, X4散点图

基于上述分析建立的模型形式是

yt = 0 + 1 xt 1 + 2 xt 2 + 3 Ln (xt 3) + 4 xt 4 + ut (4.40)

yt与xt 3呈非线性关系。估计结果如下。

ˆt= -907.94 - 2.95 xt 1 + 0.31 xt 2 + 170.19 Ln xt 3 + 45.51 xt 4 (4.41) y (-6.4) (-3.7) (4.8) (4.4) (12.6)

R 2 = 0.9885, DW = 2.09, F = 429, s.e. = 10.34

上式说明,在上述期间自动铅笔年产量每增加1百万支,平均使铅笔的年销售量减少2950万支。全国人口数每增加1百万人,平均使铅笔的年销售量增加310万支。对数的居民年均消费水平每增加1个单位,平均使铅笔的年销售量增加17亿支。一般性政策负面变动使铅笔的年销售量减少4.551亿支。当政策出现大的负面变动时,铅笔的年销量会减少9.102亿支。

当yt 对所有变量都进行线性回归时(见下式),显然估计结果不如(4.41)式好。 ˆt= -254.26 - 3.29 x t 1 + 0.42 x t 2 + 0.66 x t 3 + 40.74 x t 4 (4.42) y (-12.0) (-3.0) (8.6) (3.5) (11.7)

R 2 = 0.9857, DW = 1.77, F = 346, s.e. = 11.5

案例5:厦门市贷款总额与GDP的关系分析(1990~2003,file:bank08) 数据和散点图如下。从散点图看,用多项式方程拟合比较合理。

1000LOAN800600400200GDP02004006008000

Loant = 0 +1 GDPt + 2 GDPt 2 + 3 xt3 + ut

loant = -24.5932 +1.6354 GDPt - 0.0026GDPt 2 + 0.0000027 GDPt 3

(-2.0) (11.3) (-6.3) (7.9)

R2=0.9986, DW=2.6

1000LOANHATLOAN800600400200GDP02004006008000

例6钉螺存活率曲线(file:nonli3)(生长曲线模型)

在冬季土埋钉螺的研究中,先把一批钉螺埋入土中,以后每隔一个月取出部分钉螺,检测存活个数,计算存活率。数据见表4.3。散点图见图4.20。

yt,存活率(%) t,土埋月数

100.0

93.0 92.3 88.0 84.7 82.0 48.4 41.0 15.0 5.2 3.5 1.3 0.5

0 1 2 3 4 5 6 7 8 9 10 11 12

设定yt的上渐近极限值k =101(因为已有观测值yt =100,所以令k =101更好些。),得估计结果如下:

估计式是:

log(1011)= -4.3108 + 0.7653 t (4.38) yt (-14.8) (18.5) R2 = 0.97

因为log (0.013) = -4.3108,所以b = 0.013。则逻辑函数的估计结果是

101ˆt= (4.39) y0.7653t10.013e当t =10.5时, ˆt= y10110.013e0.765310.5= 2.38

100.0 Y

93.0 99.66 YF 92.3 98.17 88.0 95.10 84.7 89.12 82.0 78.50 48.4 62.50 41.0 43.45 15.0 26.26 5.20 14.19 3.50 7.14 1.30 3.45 0.50 1.63 0.77

当深埋10个半月时,存活率只有2.38%。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top