相关系数正的协方差表达了正相关性,负的协方差表达了负相关性。对于同样的两个随机变量来说,计算出的协方差越大,相关性越强。但随后一个问题,身高和体重的协方差为30,这究竟是多大的一个量呢?如果我们又发现,身高与鞋号的协方差为5,是否说明,相对于鞋号,身高与体重的的相关性更强呢?这样横向对比超出了协方差的能力范围。从日常生活经验来说,体重的上下浮动大约为20kg,而鞋号的上下浮动大约可能只是5个号码。所以,对于体重来说,5kg与中心的偏离并不算大,而5个号码的鞋号差距,就可能是最极端的情况了。假设身高和体重的相关强度,与身高和鞋码的相关强度类似,但由于体重本身的数值上下浮动更大,所计算出的协方差也会更大。另一个情况,依然是计算身高与体重的协方差。数据完全不变,而只更改单位。我们的体重用克而不是千克做单位,计算出的协防差是原来数值的1000倍!为了能进行这样的横向对比,我们需要排除用统一的方式来定量某个随机变量的上下浮动。这时,我们计算相关系数(correlation
coefficient)。相关系数是“归一化”的协方差。它的定义如下:
相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。
依然使用上面的身高和体重数据,可以计算出 var(x)=0.3×(60?70)2+0.3×(80?70)2=60 var(y)=0.3×(180?170)2+0.3×(160?170)2=60 ρ=30/60=0.5
这样一个“归一化”了的相关系数,更容易让人把握到相关性的强弱,也更容易在不同随机变量之间,做相关性的横向比较。
双变量正态分布双变量正态分布是一种常见的联合分布。它描述了两个随机变量x1和x2的概率分布。概率密度的表达式如下:
x1和x2的边缘密度分别为两个正态分布,即正态分布
n(μ1,σ1),n(μ2,σ2)。另一方面,除非ρ=0,否则联合分布也并不是两个正态分布的简单相乘。可以证明,ρ正是双变量正态分布中,两个变量的相关系数。
现在绘制该分布的图像。可惜的是,现在的scipy.stats并没有该分布。需要自行编写。选取所要绘制的正人人影视态分布,为了简单起见,让μ1=0,μ2=0,σ1=1,σ2=1。我们先让ρ=0,此时的联合分布相当于两个正态分布的乘积。绘制不同视角的同一分布,结果如下。可以看到,概率分布是中心对称的。
再让ρ=0.8,也就是说,两个随机变量的相关系数为0.8。绘制不同视角的同一分布,结果如下。可以看到,概率分布并不中心对称。沿着y=x这条线,概率曲面隆起,概率明显比较高。而沿着y=?x这条线,概率较低。这也就是我们所说的正相关。
现在,ρ对于我们来说,有了更具体的现实意义。 相关系数大小所代表的相关程度 2 选b
当r=0,表示不相关当r=1,表示完全正相关当r=-1,表示完全负相关
相关系数大小所代表的相关程度 3
不是这样的。相关系数是一个统计意义的值,范围是[-1,1]。照你的说法,一条曲线波动1的话另一条波动0.92时相关系数等于0.92。那么一条曲线波动1的话另一条波动2,相关系数岂不是变成2了吗,都超出[-1,1]的范围了啊。
相关系数是一种趋势的反应。相关系数为正,说明在统计意义上两条曲线之间有“同正同负”的关系。记住是统计意义上,并不是所有时刻都是“同正同负”,肯定有少数时间段是不符合的。
相关系数为负,说明在统计意义上两条曲线之间有“你正我负”的关系。当然也是统计意义上有这种相反的趋势。 相关系数为0,表示不相关。解释两条曲线之间是否存在统计关系。你不能把他推下去。
***************************************************************
个人认为还是不要把相关系数看成“同方向变动的概率”。就把它理解为“相关性大小”的一种表征。可能你觉得我这话看着像是废话,但是我也不是很确定相关系数到底能不能理解为“概率”(恕本人学艺不精),在没有结果的时候还是不要乱说了,以免误人子弟啊。
相关系数大小所代表的相关程度 4
相关系数是变量之间相关程度的指标。样本相关系数用r表示,总体相关系数用ρ表示,相关系数的取值范围为[-1,1]。|r|值越大,误差q越小,变量之间的线性相关程度越高;|r|值越接近0,q越大,变量之间的线性相关程度越低。 相关系数 又称皮(尔生)氏积矩相关系数,说明两个现象之间相关关系
密切程度的统计分析指标。 相关系数用希腊字母γ表示,γ值的范围在-1和+1之间。 γ>0为正相关,γ<0为负相关。γ=0表示不相关; γ的绝对值越大,相关程度越高。 两个现象之间的相关程度,一般划分为四级: 如两者呈正相关,r呈正值,r=1时为完全正相关;如两者呈负相关则r呈负值,而r=-1时为完全负相关。完全正相关或负相关时,所有图点都在直线回归线上;点子的分布在直线回归线上下越离散,r的绝对值越小。当例数相等时,相关系数的绝对值越接近1,相关越密切;越接近于0,相关越不密切。当r=0时,说明x和y两个变量之间无直线关系。通常|r|大于0.8时,认为两个变量有很强的线性相关性。 相关系数大小所代表的相关程度 5
嗯 其实并不一样 从意思上不太好区分 但从数学上来看的话就会很容易了:一般我们常见的相关系数是两个随机变量x y的协方差除以他们两个的标准差乘积 而如果你计算一下一个y=a*x这样形式的x和y协方差 就会发现cov=a*x的方差 所以系数a便是cov除以单独x的方差了 所以这两个还是不一样的
接下来看看你说的意思 其实这也有一定的区别 相关程度和影响程度其实并不一样 相关系数的取值范围是-1到1 得0的话就说明完全没关系了 这里最关键的一点 是这个相关关系并不牵扯影响大小 而系数则不一样 他的取值范围可不止-1到1 它可以去取得无限大 因此他描述的是影响大小 所以说这两个其实描述的是两个维度的特征举个例子:y=ax 假设a=2 说明x对y影响是2 可以说影响程度是2 a越大的话说明影响程度越大 但相关系数一直都是1 不论系数是多少p.s. 看到计量经济有些激动 写了一大堆……思考的方向很好 希望你在计量的道路上越走越给力
因篇幅问题不能全部显示,请点此查看更多更全内容