首页 热点资讯 义务教育 高等教育 出国留学 考研考公
您的当前位置:首页正文

stata:回归分析

2021-08-18 来源:华拓网
stata:回归分析

回归分析

这是⼀个回归分析的例⼦。 这个数据集收集了200名⾼中⽣的各科成绩,包括science、math、reading 和social studies。 变量female是⼀个⼆分类变量,1为⼥,0为男。

use https://stats.idre.ucla.edu/stat/stata/notes/hsb2(highschool and beyond (200 cases))regress science math female socst read

Source | SS df MS Number of obs = 200-------------+------------------------------ F( 4, 195) = 46.69

Model | 9543.72074 4 2385.93019 Prob > F = 0.0000 Residual | 9963.77926 195 51.0963039 R-squared = 0.4892-------------+------------------------------ Adj R-squared = 0.4788

Total | 19507.5 199 98.0276382 Root MSE = 7.1482------------------------------------------------------------------------------ science | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- math | .3893102 .0741243 5.25 0.000 .243122 .5354983 female | -2.009765 1.022717 -1.97 0.051 -4.026772 .0072428 socst | .0498443 .062232 0.80 0.424 -.0728899 .1725784 read | .3352998 .0727788 4.61 0.000 .1917651 .4788345 _cons | 12.32529 3.193557 3.86 0.000 6.026943 18.62364------------------------------------------------------------------------------

⽅差分析表

A.Source –这是⽅差,模型,残差,总计的来源。 总⽅差被划分为可以⽤⾃变量解释的⽅差部分(模型)和⽆法⽤⾃变量解释的部分(残差)。

B.SS这些是与三个⽅差源相关的平⽅和,即总⽅差(Total)、模型⽅差(Model)和残差⽅差(Residual)。这些可以⽤许多⽅法计算。从概念上讲,这些公式可以表⽰为:

SSTotlal 与均值的偏差的平⽅和。∑(Y−Y)

¯2

ˆ2

SSResidual 与预测值偏差的平⽅和。∑(Y−Y)

SSModel 通过使⽤Y的预测值⽽不仅仅是使⽤Y的平均值进⾏预测估计。因此此项数据相当于Y的预测值与平均值之间的平⽅差异。ˆ

∑(Y−Y)

¯

2

同时,可以从另外⼀个⾓度去看,SSModel=SSTotal–SSResidual,另外,发现SSModel/SSTotal=0.4892与R−squared的数值⼀致。R−squared为⾃变量解释的⽅差⽐例,因此R−squared可以通过SSModel/SSTotal计算。

C.DF这些是与⽅差来源相关的⾃由度。 总⽅差具有N-1个⾃由度。在这个例⼦总,样本为200,⾃由度即为200−1=199。模型⾃由度为预测变量数K−1,次模型预测变量为4个独⽴变量(math, female, socst 和 read)和1个常数项(即截距,进⾏回归的时候可以选择没有截距),则模型的⾃由度为4+1−1=4,剩余的⾃由度为199−4=195。

D.MS此为均⽅,是平⽅和除以各⾃的⾃由度(DF)。 对于模型来说,9543.72/4=2385.93;对于残差来说,9963.78/195=51.096。这些数都是通过计算得到的,并由此可以计算F⽐,来测试模型中预测变量的显著性。

整体模型拟合

E.Number of obs – 分析涉及对象个数。

F. F和Prob > F – F=MSModel/MSResidual=46.69。 与这个F值关联的P值⾮常⼩(0.0000)。 将P值与α值(0.01;0.05;0.1)⽐较,通常情况下与0.05相⽐较,如果P值⼩于0.05,说明⾃变量组与因变量之间在统计上的显著关系,这组⾃变量可以⽤来对因变量进⾏可靠的预测。需要注意的是,这个P值代表的是⼀组⾃变量整体与因变量的显著关系,单个⾃变量与因变量的显著关系以及预测能⼒将在下表阐述。G.R-squared–R⽅是可以从⾃变量(math, female, socst 和read)中预测的因变量(science)的⽅差⽐例。这个数值表明48.92%的science分数⽅差可以通过变量math,female,socst和read来预测。需要注意的是,这个也是对关联强度的整体度量,并不反映某个独特的⾃变量与因变量的关联程度。

H.Adj R-squared –调整后的R⽅。预测变量添加到模型中会提⾼⾃变量解释因变量的能⼒。即便是R⽅的增加只是源⾃样本的偶然变化。调

(1−Rsq)(N−1)(N−k−1)

整后的R⽅⽬的在于产⽣⼀个更真实的估计结果,采⽤公式1−来计算,从公式本⾝看,观测数据越少、⾃变量越多时R⽅与调

整后的R⽅差别越⼤。

i. Root MSE-误差的标准差,是均⽅残差(或者误差)的平⽅根。

参数估计

J.scicence-这⼀栏显⽰的是顶部的因变量(science)和下边的预测变量(math,female,cocst,read和常数项)。最后⼀个变量(cons)是常数项,在⼏何意义上是Y的截距,是拟合的回归线与y轴的交点。

K.Coef.-项的系数,即拟合的回归⽅程预测变量的系数。预测的回归⽅程可展⽰如下:

Ypredicted=b0+b1∗x1+b2∗x2+b3∗x3+b4∗x4

在本例中,预测的回归⽅程如下:

sciencepredicted=12.32529+.3893102∗math+−2.009765∗female+.0498443∗socst+.3352998∗read

预测的回归⽅程表明,⽅程中任⼀项⾃变量的增加1的单位,预测因变量就会有相对应系数的增加量。但需要注意的时候,需要参考P值,来判断⾃变量是否显著。

L.Std. Err.是与系数有关的标准误差。标准误差是⽤来测试参数是否与0 有显著差异。具体的⽅法是⽤参数估计值除以标准误差,会得到⼀个t值。标准误差也可以⽤来⽣成系数的置信区间。

M.t and P>|t|-这两个列代表的是t值和双尾检验的P值,是⽤于检验零假设系数为0的假设。在双尾检验中,需要预设α值,然后将P值与α值⽐较,当P值⽐α值⼩的时候,对应的系数具有统计学意义。在此案例中,socst的p值为0.424明显⼤于预设的0.05,所以此系数不具有统计学上的意义,故不显著。

N. [95% Conf. Interval]-95%置信区间。这个置信区间代表的是估计的系数的范围,置信区间与P值有⼀定的关联,如果置信区间包含0,说明对应的系数在统计学意义上不显著。例如socst的置信区间为[-0.073,0.173],包含0,同时P值为0.424明显⼤于预设的0.05。

Processing math: 100%

因篇幅问题不能全部显示,请点此查看更多更全内容