逐步回归分析实质上就是建立最优的多元线性回归方程,显然既实用而应用又最广泛。
逐步回归分析概述 1 概念
逐步回归模型是以已知地理数据序列为基础,根据多元回归分析法和求解求逆紧凑变换法及双检验法而建立的能够反映地理要素之间变化关系的最优回归模型。
逐步回归分析是指在多元线性回归分析中,利用求解求逆紧奏变换法和双检验法,来研究和建立最优回归方程的并用于地理分析和地理决策的多元线性回归分析。它实质上就是多元线性回归分析的基础上派生出一种研究和建立最优多元线性回归方程的算法技巧。主要含义如下: 1)逐步回归分析的理论基础是多元线性回归分析法; 2)逐步回归分析的算法技巧是求解求逆紧奏变换法;
3)逐步回归分析的方法技巧是双检验法,即引进和剔除检验法; 4)逐步回归分析的核心任务是建立最优回归方程; 5)逐步回归分析的主要作用是降维。
主要用途:主要用于因果关系分析、聚类分析、区域规划、综合评价等等。
2 最优回归模型
1)概念
最优回归模型是指仅包含对因变量有显着影响的自变量的回归方程。逐步回归分析就是解决如何建立最优回归方程的问题。 2)最优回归模型的含义 最优回归模型的含义有两点: (1)自变量个数
自变量个数要尽可能多,因为通过筛选自变量的办法,选取自变量的个数越多,回归平方和越大,剩余平方和越小,则回归分析效果就越好,这也是提高回归模型分析效果的重要条件。 (2)自变量显着性
自变量对因变量y有显着影响,建立最优回归模型的目的主要是用于预测和分析,自然要求自变量个数尽可能少,且对因变量y有显着影响。若自变量个数越多,一方面预测计算量大,另一方面因n固定,所以
QSQ增大,即造成剩余标准差增大,故要求自变量个数要
nk1适中。且引入和剔除自变量时都要进行显着性检验,使之达到最优化状态,所以此回归方程又称为优化模型。 3 最优回归模型的选择方法
最优回归模型的选择方法是一种经验性发展方法,主要有以下四种:
(1)组合优选法
组合优选法是指从变量组合而建立的所有回归方程中选取最优着。其具体过程是:
(1)建立变量组合的所有回归方程 (2)优选回归方程
首先对每一个方程及自变量均作显着性检验,优选原则:自变量全部显着,剩余标准差较小,既可选得最优回归方程。 2)剔除优选法
剔除优选法适指从包含全部自变量的回归方程中逐个剔除不显着自变量而求得最优回归方程的优选方法。其具体过程是: (1)建立多元回归方程 (2)优选回归方程
剔除自变量的原则是先求取偏回归平方和最小者并作显着性检验,若不显着则剔除。终止原则是直至不显着自变量剔除完为至,而仅保留对因变量y有显着影响的自变量。 3)引入优选法
引入优选法是指将所有自变量经显着性检验而逐个引入对因变量有显着影响的自变量的优选方法。其具体过程是: (1)建立一元回归方程 (2)优选回归方程
引入原则是偏相关系数绝对值最大者,引入后并进行显着性检验,若显着则继续引进自变量,直至再无显着自变量引进为止。 4)逐步回归分析法
逐步回归分析法是指运用回归分析原理采用双检验原则,逐步引入和剔除自变量而建立最优回归方程的优选方法。具体含义是:
(1)每步有二个过程 即引进变量和剔除变量,且引进变量和剔除变量均需作F检验后方可继续进行,故又称为双重检验回归分析法。 (2)引入变量 引入变量的原则是未引进变量中偏回归平方和最大者并经F显着性检验,若显着则引进,否则终止。
(3)剔除变量 剔除原则是在引进的自变量中偏回归平方和最小者,并经F检验不显着,则剔除。
(4)终止条件 即最优条件,再无显着自变量引进,也没有不显着自变量可以剔除,这也是最优回归方程的实质。
由此可知,它并没新的理论,只是多元回归分析基础上派生出的一种算法技巧。现在就来介绍逐步回归分析的具体建模原理和方法步骤。
逐步回归分析的数学模型
逐步回归分析的数学模型是指仅包含对因变量Y有显着影响自变量的多元线性回归方程。为了利于变换求算和上机计算,将对其变量进行重新编号并对原始数据进行标准化处理。
变量重新编号 1 新编号数学模型
令yxk,自变量个数为k-1,则其数学模型为:
xk01x12x23x3...k1xk1
式中,α=1,2,3,… ,n n:样本个数 其中:
S(xkxk)2
ˆkxk)2 SU(xˆk)2 SQSSU(xkx xj的偏回归平方和为:
SUbjcjj
xk:为xk的算术平均值 bj:xj的偏回归系数
cjj:为逆矩阵L1对角线对应元素 2 回归数学模型
新编号的回归数学模型为:
ˆkb0b1x1b2x2b3x3...bk1xk1 x 标准化数学模型
标准化回归数学模型是指将原始数据进行标准化处理后而建立的回归数学模型,即实质上是每个原始数据减去平均值后再除以离差平方和的方根。
1 标准化回归数学模型 令 zjxjxjSj j=1,2,3,… ,k
1n 其中: xjxj
n1 Sjljj(xjxj)2 !为离差平方和的方根
注意:ljj,ljj,S2j,Sj它们之间的区别,即离差平方和,离差平方
和的方根,方差,标准差。 则回归数学模型为:
1z12z23z3...k1zk1 ˆk0 z 2 标准化回归数学模型的正规方程组
标准化回归数学模型正规方程组的一般形式为:
z11z22z33...zk1k1zkn02zz1011z1z22z1z33...z1zk1k1z1zk2z1z21zz2022z2z33...z2zk1k1z2zk2z1z31z2z32zz3033...z3zk1k1z3zk...............................................................................................................................................2zzzzzzz...zk101k112k123k13k1k1zk1zk 因为,zj(xjx)Sj0 ,
zij(xixi)(xjxj)SiSjrij
所以上述正规方程组可变为:
000...00n00rrr...rr1111221331k1k11k0r211r222r233...r2k1k1r2kr333...r3k1k1r3k0r311r322..............................................................rk133...rk1k1k1rk1k0rk111rk122
这样,数据标准化处理后的估计值0,并令,则可得数据标准化处理后的回归方程数学模型的正规方程组的一般形式为:
r133...r1k1k1r1kr111r122r233...r2k1k1r2kr211r222 r333...r3k1k1r3kr311r322............................................................rk111rk122rk133...rk1k1k1rk1k
这样,数据标准化后0的估计值应为0,并jdj令,则可得:
r11d1r12d2r13d3...r1k1dk1r1kr21d1r22d2r23d3...r2k1dk1r2k r31d1r32d2r33d3...r3k1dk1r3k............................................................rk11d1rk12d2rk13d3...rk1k1dk1rk1k
其中:
r11r21 R...rk11r1222.........rk12r1k1r2k1 称为相关系数矩
.........rk1k1阵。
r1kr B2k
rk1k解此方程组,即可求出d1,d2,d3,,dk1,故可得标准化后的回归模型为:
ˆkd1z1d2z2...dk1zk1 z标准化的回归模型的矩阵形式:
11 X11x11x1S1x21x1S1x31x1S1xn1x1S1x12x2S2x22x2S2x32x2S2xn2x2S2x1k1xk1Sk1x2k1xk1Sk1x3k1xk1
Sk1xnk1xk1Sk1
x1kxkSkxxk2kSk Yx3kxk
SkxnkxkSk0n0r11AXX0r210rk110r12r22rk120nr1k1r2k10rk1k10R 标准化前后回归模型的关系 1标准化前后的回归模型 1)标准化前后回归模型为:
ˆkb0b1x1b2x2b3x3...bk1xk1 x 2)标准化后回归模型为:
ˆkd1z1d2z2...dk1zk1 z 2 标准化前后的偏回归系数
标准化前后偏回归系数的关系可从变化过程反演得知: 令zjxjxjSj代入标准化前的回归模型可得:
ˆkxkxxxk1xx1xx2d1.1d2.2dk1.k1 SkS1S2Sk1 整理后得:
ˆk(xkxSkSSd1x1kd2x2kdk1xk1)S1S2Sk1SkSSd1x1kd2x2kdk1xk1S1S2Sk1
ˆkb0b1x1b2x2b3x3...bk1xk1 x将上式与标准化前的回归模型作比较,由待定系数法可知标准化前后回归模型的偏回归系数的关系为:
bjSkdjSjk1j1 j=1,2,3,…k-1
b0xkbjxj 于是,只要求出dj,即可求出bj,今后仅讨论标准化后的回归模型。
3标准化后的各种离差平方和
S SuSQ1Sk12Sk1Su2Sk1SQ2Sk
求解求逆紧凑变换法
逐步回归分析每引进和剔除一个变量都要用到求解求逆紧奏变换法进行矩阵变换,最后求出方程组的解和逆矩阵。现介绍其变换原理和方法步骤。
求解求逆紧奏变换法的基本公式
由上述介绍可知,标准化后的正规方程组为:
r11d1r12d2r13d3...r1k1dk1r1kr21d1r22d2r23d3...r2k1dk1r2k r31d1r32d2r33d3...r3k1dk1r3k............................................................rk11d1rk12d2rk13d3...rk1k1dk1rk1k
E)经高斯消元法变换为(ER1), 可得增广矩阵R(0),由(R(0)既可
求出解和相应的逆矩阵。 故
r12...r11...r2122 (R(0)E)rk11rk12...rrk2k1r1k1r1k10r2k1r2k01rk1k1rk1k00rkk1rkk00 0001 经高斯消元法变换为:
10(ER1)=00010000r1(kl)r2(kl)rk(lk)r1(kl)1r2(lk)1l)rk(1k1r1(kl)2r2(lk)2l)rk(1k21l)0rk(1krk(lk)1rk(lk)2l)r1(2k1r2(l2)k1
l)rk(12k1rk(l2)k1 D R1
其变换公式为:
(l)(l1)(l1)j1,2,3,,2k1(1)rkjrkj/rkk (l)(l1)(l1)(l1)(l1)ik(2)rijrijrik.rkj/rkk 说明:公式(1)是好理解的;
公式(2)是指求算非主行和非主列的元素,实质上就是该元素减去其对应的主行与主列元素相乘并除以主元素。 举例,解下列方程组:
10x17x24x34 7x17x23x34
4x3x4x3231解:利用上述高斯消元法的(1)(2)公式,解上述方程组的求解求逆变换过程如下:
由上述方程组可得高斯求解求逆变换法矩阵形式A(0): A(0)107441007734010 4343001 当k=1,主元素为:a11,根据高斯求解求逆变换法原理和方法,可得A(1):
A(1)10.70.40.40.10002.10.21.20.710 00.22.41.40.401 当k=2,主元素为:a22,根据高斯求解求逆变换法原理和方法,可得A(2): A(2)00.3330.3330100.333010.0950.5710.3330.4760 002.3811.2860.3330.0951 当k=3,主元素为:a33,根据高斯求解求逆变换法原理和方法,可得A(3): A(3)1000.1810.3800.3200.141 0100.5190.3200.4800.0400.4230010.5410.1410.040 X A1
提出问题:由上述高斯削元法变换可知,单位矩阵只是从后k逐列移至前k列,而只是起到形式作用。这样,若利用计算机程序求解求逆就要多占用k * k个单元,试想能否节省k * k个单元呢从以上变换可知,如果能将后k列经过变换后放置前k列去,这样k * k个单元即可节省。如何做呢这要找出后k列变换前后的关系。
若R(0)经过(l-1)次变换得到R(l1),则第k+1+l列除了第l个元素为1,其余均为0,即,第k+1+l列各元素值为:
(l1)rk,k1k1 (l1)ri,k1k0ik 若再对R(l1)变换一次得R(l),则第k+1+l列各元素可由高斯消元法的公式(1)(2)变换为为:
(l)(l1)(l1)(l1)(3)rk,k1krk,k1k/rk,k1/rk,k(l)(l1)(l1)(l1)(l1)(l1)(l1)(4)rrr.r/rr/ri,k1ki,k1ki,kk,k1kk,ki,kk,kik
这就相当于第k+1+l列的第k个元素1除以主元素,其余的元素都除以主元素并变号,于是可将第k+1+l列放到对应的前l列中,这样单位矩阵就节省了,上述整个过程就称为矩阵的求解求逆紧奏变换法。
将上述公式合并即得求解求逆紧奏变换法的公式:
(l)(l1)(l1)j1,2,3,,2k1(1)rkjrkj/rkk (l)(l1)(l1)(l1)(l1)ik(2)rijrijrik.rkj/rkk(l)(l1)(l1)(l1)(3)rr/r1/rk,k1kk,k1kk,kk,k(l)(l1)(l1)(l1)(l1)(l1)(l1)(4)rrr.r/rr/ri,k1ki,k1ki,kk,k1kk,ki,kk,kik
说明:(1)式为求主行各元素;
(2)式为求非主行非主列的各元素;
用公式(2)求非主行所有元素,如:a21,a22,a34,a35,a36 。
(0)a21:k1,i2,j1(1)(1)(1)(1)(1) a21ai(1)(0)j)(0)(0)(0)(0)(0)(0)ai(0a11 kakjakka21a21a127710100(0)a22:k1,i2,j2(1)(0)j)(0)(0)(0)(0)(0)(0)ai(0a11 kakjakka22a21a12 a22ai777102.1(0)a34:k1,i3,j4 a34ai(1)(0)j)(0)(0)(0)(0)(0)(0)ai(0a11 kakjakka34a31a14344101.4(0)a35:k1,i3,j5(1)(0)j)(0)(0)(0)(0)(0)(0)ai(0a11 kakjakka35a31a15 a35ai041100.4(0)a36:k1,i3,j6(1)(0)j)(0)(0)(0)(0)(0)(0)ai(0aaaaaakkjkk36311611
a36ai040100
(3)式为求主元素; (4)式为求主列个各元素。
举例:利用求解求逆紧奏变换法解上述方程组: 解:
A(0)107447734 4343 当k=1,主元素为:a11,根据求解求逆紧凑变换法原理和方法,可得A(1):
A(1)0.10.70.40.40.72.10.21.2 0.40.22.41.4当k=2,主元素为:a22,根据求解求逆紧凑变换法原理和方法,可得A(2):
A(2)00.3330.3330.3330.3330.4760.0950.571 0.3330.0952.3811.286当k=3,主元素为:a33,根据求解求逆紧凑变换法原理和方法,可得A(3):
A(3)0.3800.3200.1410.1810.3200.4800.0400.519 0.5410.1410.0400.423 A1 X
由两种方法比较可知,其结果一样,故求解求逆紧奏变换法可节 省K*K个存储单元。 6.3.2 基本性质
1 每作一次变换,就求得一组解和相应的逆矩阵;
2 对R(0)作变换得R(l),同变换次序无关,即与哪个作主元素无关;
3 当lkR(l1)R(l),lkR(l)R(l1)R(l1),即,同一主元素作两次变换可还原;
4 在矩阵中,具有下列对称性: ri(jl)(l)变换时rji当zi,zj均作了变换或者均未作 rji当zi,zj仅一个过消除变换时 6.3.3 求解求逆紧奏变换法与回归分析的关系
由上述分析可知,逐步回归分析要求解的正规方程组为:
r11d1r12d2r13d3...r1k1dk1r1kr21d1r22d2r23d3...r2k1dk1r2k r31d1r32d2r33d3...r3k1dk1r3k............................................................rk11d1rk12d2rk13d3...rk1k1dk1rk1k
则逐步回归分析中的求解求逆紧奏变换法的增广矩阵是:
r11r R21...rk11r1222.........rk12r1k1r2k1
.........rk1k1 在逐步回归分析中,每引进一个变量或者剔除一个变量,都要对R进行一次求解求逆紧奏变换法变换,最后求得d1,d2,d3,dk1,再恒等变换为b0,b1,b2,b3,bk1,所以求解求逆紧奏变换法在逐步回归分析中十分有用。
逐步回归分析的步骤
根据逐步回归分析的原理和方法,现介绍其具体步骤。以表6 –3(P125)中地理数据为例。
地理数据
4--5
台风编号 x1 x2 x3 x4 x5 x6 x7 y 7503 - 900
6509 354 6003 - 566 6521 521 7301 - - 333 6122 359 7412 589 6213 416 6615 289 6005 254 6126 209 6208 428 6513 - 673 6312 - 395 5904 - 327 6007 - - 829 6306 - - 266 7504 - - 653 5901 - 187 6102 - - 178 7207 - 160
7123 - 280 7010 - 234 5612 - - 264 5622 - - 216 6214 - - 294 6911 - - 268 6001 - 185 6906 246 x si
第一步 求初始相关系数矩阵R0
由表6 -- 3中地理数据可求得初始相关系数矩阵为:
1.00000.18190.06880.00200.10610.07840.17330.42080.18190.06881.00000.09120.19640.14990.18240.09121.00000.35840.45470.45140.00200.19640.35841.00000.26800.40430.05840.00150.10610.07840.14990.45471.00000.31530.15280.45140.31531.00000.35340.17330.11570.05840.25110.00571.00000.16700.18240.28730.42080.10030.27330.00150.15280.35340.16701.0000R(0)0.26800.40430.28730.11570.10030.2733
0.25110.0057
第二步 逐步优选变量
该步是指逐步优选变量以建立最优回归方程。 1 选择第一个变量
首先,引入第一个变量以建立一元回归模型:
ˆkdj(1)zj zj1,2,3,,k1
1)确定F1=F2=5(本例最好为),即引进与剔除变量的F检验值。 2)引进变量的原则与方法 如何确定先引入哪一个变量呢 (1)选择原则
引入原则为偏回归平方和最大者,也称为方差贡献最大者。由前述可知,回归平方和越大,回归方程的效果就越好。 (2)选择方法
如何选择偏回归平方和最大者呢方法有两钟,即:一般方法和直接方法。 一般方法:
一般方法是指从建立后的回归方程求得,公式为:ujdjljk 这样看来,工作量相当大,设想一下,能否从R(0)中直接求得各偏回归平方和再从中选择最大者呢回答是肯定的!因为R(1)是从R(0)中变换得来的,所以,它们之间有数量联系。 直接方法:
直接方法是指从R(0)中直接求得偏回归平方和最大者。如何从
R(0)中直接求呢这就要从求解求逆紧凑变换法中找出R(0)R(1)中的
关系。
由上述变换可知:
dj(1)(1)rjk(1)(1)rjk(0)/rjj(0)(0)(0)cjjrjj1/rjj1/cjj
于是,zj中的偏回归平方和可得:
uj(1)[dj]2cjj[rjk[rjk(0)(0)2(1)(0)[dj]2/cjj(0)(1)(1)
/rjj]2/[1/rjj]]/rjj(0)(0)
此式表明,uj(1)完全可以从R(0)中直接求得。于是可拓展到:
ujuj(2)(3)R(1)R(2) uj(4)R(3)
ujk1R(k2) 3)引进变量
(1)确定引进变量,即:求uj0便可确定。
运用直接方法即可求算所有偏回归平方和uj0,并选取maxuj0者。 由于的对角元素均为:
r11(0)r22(0)r33(0)rk1k1(0)1
所以,最后一列绝对值最大者便为偏回归平方和最大者。本例为
z1,即:
u10=r1k0r1l00.4208210.1771
2 由此可知maxu100.0.1771,故引入的第一个变量为:z1 ,即:
ˆkd1(1)z1 zj1
(2)引进变量检验
方法为F检验法,首先,应经验性确定临界值F(f,f),其大小主
12要与信度和自由度有关,所以,不宜太大,否则,引进变量较少,不实用。本例K=7,若试选4个变量,则n29,f14,f2nk124,即:
F(f,f)F0.05(4,24)2.78,选为宜。
12u10f10.177110.1771 F11u10f210.17712710.1771275.81
因为F3=>F1=,所以引进的第一个变量为z1。
(3)求算R1
1.00000.18190.06880.0020R1=0.10610.07840.17330.42080.18190.06880.96680.10370.19680.13060.19670.10370.99520.35830.44730.44600.42080.19680.13060.19670.25580.02370.35830.44740.44600.10380.24450.99990.26850.40410.05800.00060.26850.98870.30700.23270.19750.40410.30700.99380.00770.32040.05800.23270.00770.96990.09410.00060.19750.32040.09410.82280.00200.10610.07840.1733R0经求解求逆紧凑变换法可求得R1为:
0.25580.10380.02370.2443 4) 剔除变量
由于刚引进第一个变量,故略。
2 选择第二个变量 1) 引进变量
(1)确定引进变量,求算uj1,并求取maxuj1,j=2,3,4,5,6,7
2211r22 u2r2k0.02370.96680.00058
2 同理可求得:
222220.0601,u40.0395,u60.1033,u70.0091 0.0000,u5 u3 由此可知maxu610.1033 (2)引进变量检验
2u60.1033 F112n3263.75
rkku60.54340.1033 因为F3= > F2=,所以应引进变量z6,并对R(0)进行求解求逆紧凑变换得R(1),如表 所示。
1.00610.19740.03370.0298R2=0.08190.07880.17390.39550.19740.06670.02980.08190.92790.01540.11680.19140.19790.01540.79500.17690.30960.44880.11680.17690.83560.14360.40660.06120.25420.10730.08710.10050.12960.39550.19140.19790.25420.08710.30960.44880.10730.10050.14360.40660.06120.1296 0.89380.30890.23510.29650.30891.00610.00780.32240.23510.00780.96980.09660.29650.32240.09660.71950.07880.1739 2)剔除变量
由于z6变量刚刚引进,现只需对z1作检验。
(1)确定剔除变量,求算u(j2),并求取minuj2,j=1,6
22 u12r1k2r110.39551.00610.1554
2 (2)剔除检验
u12f1u0.1554 F2(2)1(2)(n3)265.622
0.7195rkkf2rkk(2) 因为,所以不应剔除,继续引进变量。 3 选择第三个变量
(1)确定引进变量,求算uj3,并求取maxuj3,j=2,3,4,5,7
2322r22 u2r2k0.08710.92790.0082
2 同理可求得:
33330.0127,u40.0984,u70.0096 0.0201,u5 u3 由此可知maxu530.00984 (2)引进变量检验
3u50.0984 F113n4253.9588
rkku50.54340.0984因为F33.9588F12.5,所以,应引进变量z5,并对R(2)进行求解求逆紧凑变换得R(3),如表 所示。
R(3)1.01360.17990.00530.04290.09160.05050.15240.42270.17990.00530.04290.88690.08170.14750.21410.26410.08170.68770.12710.34630.34180.14750.81250.16070.02340.09160.21410.16071.11870.26300.12710.34630.35690.34560.20390.02580.15070.20320.08190.33170.42270.26410.20390.15070.34180.02580.20320.35690.02340.08190.34560.26300.33171.11290.08910.42490.08910.90800.17460.42490.17460.62110.05050.1524 2)剔除变量
由于z5变量刚刚引进,现只需对z1,z6作剔除检验。 (1)确定剔除变量,求算u(j3),并求取minuj3,j=1,6
23 u13r1k3r110.42271.01360.1763
22333 u6r66r6k0.42491.11290.1622
230.1622为最小,故对z6做剔除检验。 由此可知,u6 (2)剔除检验
3u6fu0.1622 F3(3)16(3)(n4)256.5287
0.6211rkkf2rkk(3) 因为,F36.5287F22.5所以不应剔除,继续引进变量。 说明:有两钟情况,即:
F3F2时,不应剔除变量z6,并继续引进新的变量;
F3F2时,应剔除变量z6,并对lR(3)R(4)做变换,这时,还要对变量z1作剔除检验,若F3F2时,则终止剔除检验,继续引进新的变量;如F3F2时,则继续做剔除检验,直到没有不显着变量存在为止。
4 选择第四个变量 1) 引进变量
(1)确定引进变量,求算uj4,并求取maxuj4,j=2,3,4,7
2433 u2r22r2k0.15070.88690.0256
2 同理可求得:
4440.0600,u40.0336 0.0083,u7 u340.0600 由此可知maxu3 (2)引进变量检验
4u30.0600 F334n5242.5664
rkku30.62110.0600 因为F32.5664F12.5,所以,应引进变量z3,并对R(3)进行求解求逆紧凑变换得R(4),即:lR(3)R(4),如表 所示。
1.01360.18050.00770.04390.08890.04790.15220.42110.42110.87720.11880.13240.25520.22350.20700.17480.11881.45410.18480.50360.49700.03750.29550.13240.18480.78900.09670.29370.01860.11950.25520.50360.09671.29310.17350.25000.43400.22350.49700.29370.17351.28280.10190.32390.20700.03750.01860.25000.10190.90700.16700.17480.29550.11950.43400.32390.16700.56110.18050.00770.04390.08890.04790.1522R(4) 2)剔除变量
由于z3变量刚刚引进,现只需对z1,z5,z6作检验。
(1)确定剔除变量,求算u(j4),并求取minuj4,j=1,3,5,6 。
24 u14r1k4r110.42111.01360.1749
2 u5(4)0.1457 ,u6(4)0.0818
由此可知,u6(4)0.0818为最小,则先对z6作剔除检验。 (2)剔除检验
4u6fu0.0818 F2(4)16(4)(n5)243.499
0.5611r66f2r66(4) 因为,所以不应剔除变量z6,继续引进新的变量。 5 选择第五个变量 1) 引进变量
(1)确定引进变量,求算uj4,并求取maxuj4,j=2,4,7
2544 u2r22r2k0.17480.87720.0348
2 同理可求得:
550.0307 0.0181,u7 u450.0348 为最大,故确定引进变量z2 。 由此可知maxu2 (2)引进变量检验
5u20.0348 F145n6231.5208
rkku20.56110.0348 因为F3=<F2=,所以不应引进变量z2,同时表明再无显着变量可以引进,则应终止,并即可求出最优回归模型。 第三步 建立回归方程,即最优回归方程。 1、求算dj,j=1,3,5,6
根据求解求逆紧凑变换法的基本原理和方法步骤,由R4可知:
d10.4211
d0.29553
d0.43405d60.3239
2、求算bj,j=1,3,5,6 。 (1)求有关项
k7 1 3 5 61x7x721039.3 n1x1x1215.589 n1x3x3232.76 n12xx556.768 n1x6x6227.87 n x14.092,x310.9,x50.083,x67.7,x7374.9 (2)求b1 b1 b3b571039.3d10.421128.0742 115.58971039.3d3(0.2955)9.3746 332.7671039.3d50.434066.6454 56.768b671039.3d6(0.3239)12.0786 627.87 (3)求算bo
b0yb1x1b3x3b5x5b6x6374.928.07424.072(9.374610.9)66.64540.083(12.07867.7)449.6772
故求得逐步回归分析的最优回归方程为:
ˆ449.677228.0742x19.3746x366.6454x512.0786x6 y 第五步 显着性检验 1、求有关项
LkkLyyyy21039.321080144.49 L1yyyx1x1 L3yyyx3x3
L5yyyx5x5 L6yyyx6x6
USk2(1rkk(4))1039.32(10.5611)474075.4167 QSk2rkk(4)1039.320.5611606069.0733 或者
QLyyU1080144.49474075.4167606069.0733 2、求F F1Uk474075.4167/44.6933
Qnk1606069.0733242 3、求Ff,f 查表可得:
,24f1,f2F0.42.78 F05,242.78,所以该回归方程显着,可以应用于地理分因为F=>F0.405析。
例2
根据逐步回归分析的原理和方法,现介绍其具体步骤。以表中地
理数据为例。
表 地理数据
序 号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 x1 x2 x3 x4 y 40 43 28 41 28 56 40 47 32 42 57 31 67 34 51 47 16 18 18 18 18 23 20 19 18 19 22 19 20 21 19 23 51 53 66 51 66 42 44 62 56 35 53 32 62 31 58 28 40 39 53 43 53 53 50 43 58 52 55 67 32 66 47 73 230 236 238 第一步 求初始相关系数矩阵R0
由表中地理数据可求得初始相关系数矩阵为:
10.50860.05510.41530.30040.508610.49160.48330.6757R0=0.05510.491610.65630.4966 10.58650.41530.48330.65630.67570.49660.586510.3004
第二步 选择第一个变量
1、确定F1=F2=5,即引进与剔除变量的F检验值。
2、引进变量
(1)求uj0,即求算所有偏回归平方和uj0,并选取maxuj0者。 u10=r1k0r110r1(50)r1(10)0.3004210.0902
22 同理可求得:
0u200.4566,u30.2466,u400.3440
由此可知maxu200.4566 (2)引进变量检验
u20f10.45661F311.7680 010.4566141u2f2 因为F3=>F1=5,所以引进的第一个变量为z2。 (3)求算R1
R0经求解求逆紧凑变换法可求得R1为:
0.74130.50860.30510.66110.043310.49160.48330.67570.5086R1=0.30510.49160.75830.41870.1644 0.25990.66110.48330.41870.76640.5434-0.04330.67570.16440.2599
2、剔除变量
由于刚引进第一个变量,故略。 第三步 选择第二个变量 1、引进变量
(1)求算uj1,并求取maxuj1,j=1,3,4
11)r1(11)0.043320.7413.0025 r11r1(5 u11r11k22 同理可求得:
1u30.0356,u410.0881
由此可知maxu410.0881 (2)引进变量检验
u410.0881F31n3132.5155 10.54340.0881rkku4 因为F3=<F2=5,所以再无显着变量引进,故引进变工作结束。 2、剔除变量
由于未引进变量,剔除工作也结束。 第四步 建立回归方程,即最优回归方程。 1、求算dj,j=2 由R1可知:
d20.6757
2、求算bj,j=2 (1)求有关项 (2)求b2 (3)求算bo
b254.7690d20.67571.6934 21.9029k51x5x524.7690 n21x2x221.9029 nx219.4375,x5236.7563
b0x5b2x2236.75631.693419.4375
203.8408
故求得逐步回归分析的最优回归方程为:
ˆ203.84081.6934x2 y 第五步 显着性检验 1、求有关项
L55x5x52363.8994 L25x2x2x5x598.1063 Ub2L251.693498.1063166.1332 QL55U363.8994166.1332197.7662 2、求F FUk166.133211.7606
Qnk1197.76621412 3、求Ff,f 查表可得:
f1,f2,14FF01.018.86
,14 因为F=>F01.018.86,所以该回归方程显着,可以应用于地理分
析。
为了全面掌握逐步回归分析的步骤,若设F1F22.5时,则第三步选择第二个变量的引进变量检验中,因为F3=>F1=,所以引进的第二个变量为z4。这样就须继续进行。 求R2
由R1经求解求逆紧凑变换法可求得R2为:
0.18090.17100.92550.05610.86261.30480.22760.63060.51180.92550.05610.22760.52960.54630.0224 0.33910.86260.63060.54631.30480.18090.51180.02240.33910.4553 R2 现已引进z2、z4两个变量,由于z4刚引进,故只须对z2作剔除检验,具体步骤如下: (1)求u22
ru2222522r2220.51181.30480.2008
(2)求F3
u220.2008F32n3135.7319
0.4553r55 因为F3=>F2=,所以z2是显着变量,不应剔除。
继续选择第三个变量,若还有显着变量引进则继续进行,具体步骤同上述,若再无有显着变量引进,则结束,即可建立回归方程,具体步骤如下: (1)求dj,j=2,4 由R2可知
d20.5118 d0.33914 (2)求算bj,j=2,4 ①求有关项
5=4.7690 21.9029
410.6360
x219.4375,x451.5,x5236.7563 ②求算bj,j=2,4
b254.7690d20.51181.2827 21.9029 b4 ③求b0
54.7690d40.33910.1520 410.6360 b0x5b2x2b4x4236.75631.282719.4375 0.152051.5203.9958 故求得逐步回归分析的最优回归方程为:
ˆ203.99581.2827x20.1520x4 y 对回归方程进行显着性检验,具体步骤如下: (1)求有关项 L55363.8994 L2598.1063 L45475.95
Ub2L25b4L451.282798.10630.1520475.95198.1854 QL55U363.8994198.1854165.7140 (2)求F F1Uk198.1854211.9350
Qnk1165.714016212 (3)求Ff,f 查表可得:
f1,f2,13FF0.2016.70
,136.70,因为F=>F0.201所以该回归方程显着,可以应用于地理分析。
逐步回归分析的实习指导
6.5.1 实习目的
1、巩固逐步回归分析的基本原理及方法步骤。 2、掌握逐步回归分析程序的使用方法及技巧。 3、求取最优回归方程并应用于预测等。 4、掌握逐步回归分析程序的变换应用方法。
6.5.2 实习内容
1、标识符说明 N M F1、F2 Q
样本个数 自变量数 F检验的临界值
存放选入l个自变量以后的剩余平方和
Q2存放y的剩余标准差估计值 L X(N, M+1) R(M+1, M+1) B(M) T(M)
选入自变量的个数
存放变量Xα1, Xα2, Xα3, …, Xαm+1=y的数据(α=1, 2, 3, …, N) 存放相关系数
存放回归系数b0, b1, b2, …, bl
临时存贮单元,开始时用以标记自变量是否选上,当xi未选入时T(I)=0,一旦xi选入,则T(I)存放R
Z(I) A(M+1) V(M+1)
存放自变量xi和y的平均数 存放离差平方和的均方根SiLii1-1
对角线元素。
存放回归系数显着性检验的t统计量
N(xixi)2(i=1, 2, 3,…,
m+1)。
U(M1) F
S存放各自变量和y的离差平方和均方根之比m1i=1, 2, 3, …, m。
SiF检验值
Sa yi pyi Er Er% 2、程序
剩余标准差 原始y值 预测y值 预测误差 相对预测误差
5 REM逐步回归分析程序
10 INPUT“样本数N,自变量数M, F检验数F1, F2=”;N, M, F1, F2 15 Y=M+1
20 DIM X(N, Y), A(Y), R(Y, Y), V(Y), U(Y), T(M), Z(M), B(M), E(N) 25 FOR I=1 TO N 30 FOR J=1 TO Y 35 READ X(I, J) 40 PRINT X(I, J); 45 NEXT J 50 PRINT 55 NEXT I
57 REM 形成相关系数矩阵 60 FOR J=1 TO Y 65 T=0 70 D=0 75 FOR I=1 TO N 80 T=T+X(I, J) 85 D=D+X(I, J)*X(I, J) 90 NEXT I 95 T=T/N 100 A(J)=T
105 D=SQR(D-N*T*T) 110 V(J)=D 115 NEXT J 120 FOR I=2 TO Y 125 FOR J=1 TO I-1 130 G1=0 135 FOR K=1 TO N
140 G1=G1+(X(K, I)-A(I))*(X(K, J)-A(J)) 145 NEXT K
150 G1=G1/(V(I)*V(J))
155 R(I, J)=G1 160 R(J, I)=G1 165 NEXT J 170 NEXT I 175 FOR I=1 TO Y 180 R(I, I)=1 185 U(I)=V(Y)/V(I) 190 NEXT I
195 PRINT“R Matrix” 200 FOR I =1 TO Y 202 FOR J=1 TO I 205 PRINT R(I, J), 208 NEXT J 209 PRINT 210 NEXT I
213 REM选因子和剔除因子的过程 215 T1=0 220 L=0 225 Q=1 230 T1=T1+1 235 V1=0 240 V2=10 245 FOR I=1 TO M 250 T(I)=0 255 D=R(I, I)
260 IF D<1E-08 THEN 315 265 W=(R(Y, I)/D)*R(I,Y) 270 IF W>0 THEN 300 275 T(I)=D
280 IF-W>=V2 THEN 315 285 V2=-W 290 I2=I 295 GOTO 315 300 IF W<=V1 THEN 315 305 V1=W 310 I1=I 315 NEXT I
320 IF T1<=2 THEN 360 325 F3=(N-L-1)*V2/Q 330 IF F3>F2 THEN 360 335 L=L-1 340 K=I2 345 K1=-K
350 PRINT“Imin=”;K1,“L=”;L 355 GOTO 390 360 IF L>=M THEN 475 362 F3=(N-L-2)*V1/(Q-V1) 365 IF F3 410 R(I, J)=R(I, J) –R(I, K)*R(K,J)/R(K, K) 415 NEXT J 420 NEXT I 425 FOR I=1 TO Y 430 IF I=K THEN 445 435 R(K, I)=R(K, I)/R(K, K) 440 R(I, K)=-R(I, K)/R(K, K) 445 NEXT I 450 R(K, K)=1/R(K, K) (1)ˆ 453 REM求S剩,F比, 455 Q=R(Y, Y) 460 F=(N-L-1)*(1-Q)/(L*Q) 465 Q2=SQR(Q/(N-L-1))*V(Y) 470 GOTO 230 475 PRINT“* * * * * * * * * * * * * * * * * * * * *” 480 IF L=0 THEN 500 485 PRINT“L=”;L,“F=”;F,“Sigma=”;Q2 490 GOSUB 510 495 GOTO 505 500 PRINT“Y is Independent With X” 505 END 507 REM求回归系数b0和bi 510 D=0 515 FOR I=1 TO M 520 IF T(I)<>0 THEN 540 525 B(I)=0 530 Z(I)=0 535 GOTO 560 540 D1=R(I, Y) 545 B(I)=U(I)*D1 550 D=D+B(I)*A(I) 555 Z(I)=D1/SQR(T(I)*Q/(N-L-1)) 560 NEXT I 565 B(0)=A(Y)-D 570 PRINT“b0=”,B(0) 575 PRINT“I”,“bi”,“Ti” 580 FOR I=1 TO M 585 PRINT I, B(I), Z(I) 590 NEXT I 595 E1=0 600 K2=0 605 PRINT“I”,“Yi”,“Pyi”,“Er”,“Er%” 610 FOR K=1 TO N 615 D=B(0) 620 FOR I=1 TO M 625 IF B(I)=0 THEN 635 630 D=D+B(I)*X(K, I) 635 NEXT I 640 E(K)=X(K, Y)-D 645 D1=E(K)*100/X(K, Y) 650 PRINT K, X(K, Y), D, E(K), D1 655 IF ABS(E(K))<=ABS(E1) THEN 670 660 E1=E(K) 665 K2=K 670 NEXT K 675 PRINT“Kmax=”;K2,“Ermax”;E1 680 RETURN 710 DATA 40, 16, 51, 40, 230, 43, 18, 53, 39, , 28, 18, 66, 53, 720 DATA 41, 18, 51, 43, , 28, 18, 66, 53, , 56, 23,42,53,, 40, 20, 44, 50, , 47, 19, 62, 43, 236 730 DATA 32, 18, 56, 58, , 42, 19, 35, 52, , 57, 22, 53, 55, 238 740 DATA 31, 19, 32, 67, , 67, 20, 62, 32, , 34, 21,31, 66, 750 DATA 51, 19, 58, 47, , 47, 23,28, 73, 实习过程 首先进入QBASIC状态,然后输入逐步回归分析程序;接着运行程序。 运行命令操作后,屏幕显示: 样本数N,自变量数M,检验临界值F1, F2= 于“”后输入16, 4, 5, 5↙,即显示运行结果如下 R Matrix 1 .508644 1 .055125 -.491639 1 -.415311 .483276 -.656259 1 .300428 .675679 -.496614 .58647 Imax=2 L=1 *** *** *** L=1 F= Sigma= b0= I bi Ti 1 0 0 2 3 0 4 0 I yi Pyi Er Er% 1 230 -.935486 -.406738 (以下略) 程序变换应用 1、准备数据 表 某地相关统计数据 年份 货运量y 农业总产值x1 工业总产值x2 (万吨) (亿元) (亿元) 基建投资x3 (亿元) 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 2、编辑程序 (1)样本数N,自变量M,检验临界值F1、F2的值 N=10, M=3 (2)DATA语句 将DATA语句中数据均删除,重新输入所需表数据,DATA语句的格式如: 710 DATA ,,,,,,,,,,, 720 DATA ,,,,,,,,,,, 730 DATA 740 DATA 750 DATA 3、运行程序 运行程序,观察运行结果,并将两次运行结果作以比较。 因篇幅问题不能全部显示,请点此查看更多更全内容