首页 热点资讯 义务教育 高等教育 出国留学 考研考公
您的当前位置:首页正文

现代心理与教育统计学复习资料

2021-12-14 来源:华拓网
现代⼼理与教育统计学复习资料

第⼀章⼼理与教育统计学基础知识1、数据类型称名数据

计数数据离散型数据顺序数据等距数据

测量数据连续型数据⽐率数据

2、变量、随机变量、观测值

变量是可以取不同值的量。统计观察的指标都是具有变异的指标。当我们⽤⼀个量表⽰这个指标的观察结果时,这个指标是⼀个变量。

⽤来表⽰随机现象的变量,称为随机变量。⼀般⽤⼤写的X或Y表⽰随机变量。随机变量所取得的值,称为观测值。⼀个随机变量可以有许多个观测值。3、总体、个体和样本

需要研究的同质对象的全体,称为总体。每⼀个具体研究对象,称为⼀个个体。

从总体中抽出的⽤以推测总体的部分对象的集合称为样本。样本中包含的个体数,称为样本的容量n。

⼀般把容量n ≥30的样本称为⼤样本;⽽n <30的样本称为⼩样本。

5、统计误差

误差是测得值与真值之间的差值。测得值=真值+误差

统计误差归纳起来可分为两类:测量误差与抽样误差。

由于使⽤的仪器、测量⽅法、读数⽅法等问题造成的测得值与真值之间的误差,称为测量误差。由于随机抽样造成的样本统计量与总体参数间的差别,称为抽样误差第⼆章统计图表⼀、数据的整理

在进⾏整理时,如果没有充⾜的理由证明某数据是由实验中的过失造成的,就不能轻易将其排除。对于个别极端数据是否该剔除,应遵循三个标准差法则。⼆、次数分布表

(⼀)简单次(频)数分布表

(⼆)相对次数分布表

将次数分布表中各组的实际次数转化为相对次数,即⽤频数⽐率(f /N )或百分⽐( )来表⽰次数,就可以制成相对次数分布表

(三)累加次数分布表 (四)双列次数分布表

双列次数分布表⼜称相关次数分布表,是对有联系的两列变量⽤同⼀个表表⽰其次数分布。

所谓有联系的两列变量,⼀般是指同⼀组被试中每个被试两种⼼理能⼒的分数或两种⼼理特点的指标,或同⼀组被试在两种实验条件下获得的结果。 三、次数分布图

使⼀组数据特征更加直观和概括,⽽且还可以对数据的分布情况和变动趋势作粗略的分析。

简单次(频)数分布图——直⽅图、次数多边形图 累加次数分布图——累加直⽅图、累加曲线 (⼀)简单次数分布图--直⽅图 (⼆)简单次数分布图-次数多边图

次数分布多边形图(frequency polygon )是⼀种表⽰连续性随机变量次数分布的线形图,属于次数分布图。凡是等距分组的可以⽤直⽅图表⽰的数据,都可⽤次数多边图来表⽰。

绘制⽅法:以各分组区间的组中值为横坐标,以各组的频数为纵坐标,描点;将各点以直线连接即构成多边图形。(三)累加次数分布图—累加直⽅图 (四)累加次数分布图——累加曲线 四、其他统计图表条形图:⽤直条的长短来表⽰统计项⽬数值⼤⼩的图形,主要是⽤来⽐较性质相似的间断型资料。

圆形图:是⽤于表⽰间断型资料⽐例的图形。圆形的⾯积表⽰⼀组数据的整体,圆中扇形的⾯积表⽰各组成部分所占的⽐例。各部分的⽐例⼀般⽤百分⽐表⽰。

线形图⽤来表⽰连续型资料。它能表⽰两个变量之间的函数关系;⼀种事物随另⼀种事物变化的情况;某种事物随时间推移的发展趋势等。基于线形图,既可对有关统计变量进⾏数量⽐较,⼜可分析发展的趋势。散点图是⽤相同⼤⼩圆点的多少或梳密表⽰统计资料量⼤⼩以及变化趋势的图。第三章 集中量数

集中量数⽤来表现数据资料的典型⽔平或集中趋势(central tendency )。 常⽤的集中量包括算术平均数、加权平均数、中位数和众数等等。 ⼀、算术平均数

算术平均数(arithmetic average )⼀般简称为平均数(average )或均数、均值(mean )。 ⼀般⽤M,或者⽤ 表⽰。 算术平均数是最常⽤的集中量 (⼀)算术平均数的计算公式%100?N f X in

i n X n n X X X X ∑=∑=+++=1211 X n X ∑=1(⼆)算术平均数的意义

算术平均数是应⽤最普遍的⼀种集中量。它是“真值”(true score )的最佳估计值。 真值是反映某种现象的真实⽔平的分数。由于测量过程中的各种偶然因素的影响,真值往往很难得到。

在实际测量中,往往采⽤“多次测量,取平均数”的⽅法,⽤平均数去估计真值。 (三)算术平均数的优缺点优点:反应灵敏、有公式严密确定、简明易懂、适合代数运算

缺点:容易受两极端数值的影响;⼀组数据中有模糊不清的数值时⽆法计算。 (四)计算和应⽤算术平均数的原则同质性原则:算术平均数只能⽤于表⽰同类数据的集中趋势。

平均数与个体数值相结合的原则:在解释个体特征时,既要看平均数,也要结合个体的数据。

平均数与标准差、⽅差相结合原则:描述⼀组数据时既要分析其集中趋势,也要分析离散程度。 ⼆、中位数

中位数(median )⼜称为中数,是按顺序排列的⼀组数据中位于中间位置的数。中位数是常⽤集中量的⼀种。⼀般⽤Md 或Mdn 表⽰ (⼀)中位数的计算⽅法 1、原始数据计算法

⼀组数据中⽆重复数值的情况 ⾸先将⼀组数据按顺序排列 ; 2、次数分布表计算法公式中:Lb 为中位数所在组的精确下限

fb 为中位数所在组下限以下的累积频数 n 为数据总和fMd 为中位数所在组的频数 i 为组距(⼆)中位数的特点及应⽤

中位数是根据全部数据的个数来确定其位置的,意义简明,对按顺序排列的数据来讲,计算中位数也⽐较容易。中位数不受两端极端数据的影响,但反应不灵敏,也不适合进⼀步代数运算的要求。⼀般⽤于下列情况:1、⼀组数据中有极端数据时;

2、⼀组数据中有个别数据不确切、不清楚时;3、资料属于等级性质时。 三.众数众数(mode )⽤Mo 表⽰,有两种定义:

理论众数是指与频数分布曲线最⾼点相对应的横坐标上的⼀点; 粗略众数是⼀组数据中出现次数最多的那个数。个数为第则为奇数若21,+n Md n 2,122++=n

n X X Md n 则为偶数若Md b b f i f n L Md ??? ??-+=2

众数也是⼀种集中量,也可⽤来表⽰⼀组数据的集中趋势。 众数的计算⽅法(观察法寻找粗略众数 ) 未分组数据中出现次数最多的数即为众数。

次数分布表中,频数最多那⼀组数据的组中值,即为众数。 四、算术平均数、中位数、众数三者的关系在正态分布中: 在正偏态分布中: 在负偏态分布中: 五、其它集中量数 (⼀)加权平均数加权平均数是不同⽐重数据(或平均数)的平均数,⼀般⽤ 表⽰。其计算公式有两种:(⼆)⼏何平均数

⼏何平均数(geometric mean )是n 个数值连乘积的n 次⽅根,⽤ 或 表⽰。计算公式为:

当数据的分布呈偏态时,可⽤⼏何平均数表⽰该组数据的集中趋势。 ⼏何平均数的变式 两边取对数,得注意:⼏何平均数计算的是平均的变化情况,如果要计算平均增长率,需要从⼏何平均数中减去基数1。⼏何平均数的应⽤:

1.直接应⽤基本公式计算⼏何平均数

有少数极端数据,数据呈偏态分布;⼼理物理学中的等距与等⽐量表实验中.(例[3-8]P72)2.应⽤⼏何平均数的变式计算

按⼀定⽐例变化的⼀列数据,⼀般⽤来求平均变化率如平均增长率. 例[3-9][3-10][3-11]P73 (三)调和平均数调和平均数(harmonic mean),⽤符号MH 表⽰.也叫倒数平均数.公式为: 调和平均数的应⽤

学习速度⽅⾯的问题.调和平均数在描述速度⽅⾯的集中趋势时,优于其他集中量 在有关研究学习速度的实验设计中,反应指标⼀般常取两种形式;

1、⼯作量固定,记录各被试完成相同⼯作所⽤的时间.例[3-13][3-14]P762、学习时间⼀定,记录⼀定时间内各被试完成的⼯作量,例[3-15]O M Md X ==O M Md X >>OM Md X <

i w n X

n X ∑?∑=g M g X n n g X X X M =21111123

12---==n n n n n g X X X X X X X X M ()1lg lg 11lg X X n M n g --=∑=i H X N M 1第四章 差异量数

描述数据离散程度的统计量称为差异量。差异量越⼤,表明数据越分散、不集中;差异量越⼩,表明数据越集中,变动范围越⼩。

⼀组数据的离散程度,常常通过数据的离中趋势特点进⾏分析。 ⼀、全距、四分位距和百分位距 (⼀)全距 R (range )全距是⼀组数据中的最⼤值(maximum )与该组数据中最⼩值(minimum )之差,⼜称极差。R =Xmax -Xmin

(⼆)百分位差(百分位距)

百分位差是指两个百分位数(percentile )之差。 常⽤的百分位距有两种:⽤⼏个百分位距能较好地反映⼀组数据的差异程度。

对于任何⼀组观察值,只要任意指定⼀个位置,就可以求出这个位置的数应该是多少;----百分位数

相反,如果给出⼀个数,也可以求出它应该在哪个位置.---百分等级 百分位数--频数分布中相对于某个特定百分点的原始分数,它表明在分布中低于该分数的个案占总频数的百分⽐。

百分等级分数--频数分布中低于特定原始分数的频数百分⽐。 (三)四分位距四分位距是第⼀个四分位数与第三个四分位数之差的⼀半,计算公式为 (四)平均差

平均差(average deviation 或者 mean deviation )是指⼀组数据中,每⼀个数据与该组数据的平均数离差的绝对值的算术平均数,通常⽤AD 或MD 表⽰。原始数据计算公式(五)⽅差和标准差

⽅差(⼜称为变异数、均⽅)。是表⽰⼀组数据离散程度的统计指标。⼀般样本的⽅差⽤ 表⽰,总体的⽅差⽤ 表⽰。标准差(standard deviation )是⽅差的算术平⽅根。⼀般样本的标准差⽤ S 表⽰,总体的标准差⽤

表⽰。 标准差和⽅差是描述数据离散程度的最常⽤的差异量。 1、样本⽅差及标准差定义公式2、总体⽅差及标准差的定义公式是总体σ的⽆偏估计213

Q Q Q -=n XX AD -∑=()n

X X S 22-∑=()n X X S 2

-∑=()N X 22µσ-∑=()N X 2µσ-∑=()12--∑=

n X X S 2S 2σσ

3、原始数据的⽅差与标准差计算4、总标准差的合成

⽅差具有可加性的特点。当已知⼏个⼩组数据的⽅差或标准差时,可以计算⼏个⼩组联合在⼀起的总的⽅差或标准差。需要注意的是,只有在应⽤同⼀种观测⼿段,测量的是同⼀种特质,只是样本不同的数据时,才能计算合成⽅差或标准差。计算公式

公式中: 为总⽅差, 为总标准差 Si 为各⼩组标准差ni 为各⼩组数据个数5、⽅差和标准差的性质

⽅差是对⼀组数据中各种变异的总和的测量,具有可加性和可分解性特点。标准差是⼀组数据⽅差的算术平⽅根,它不可以进⾏代数计算,但有以下特性:如果则 如果

则 6、⽅差和标准差的意义

⽅差与标准差是表⽰⼀组数据离散程度的最好指标,是统计分析中最常⽤的差异量。 标准差具备⼀个良好的差异量应具备的条件,如:反应灵敏,有公式严密确定,简明易懂,适合代数运算等等。

应⽤⽅差和标准差表⽰⼀组数据的离散程度,须注意必须是同⼀类数据(即同⼀种测量⼯具的测量结果),⽽且被⽐较样本的⽔平⽐较接近。 7、标准差的应⽤/——差异系数

差异系数(coefficient of variation )是指标准差与其算术平均数的百分⽐,它是没有单位的相对数。常以CV 表⽰,其计算公式为 :

差异系数的作⽤: ⽐较不同单位资料的差异程度

⽐较单位相同⽽平均数相差较⼤的两组资料的差异程度 可判断特殊差异情况8、标准差的应⽤——标准分数

⼜称基分数或Z 分数,是以标准差为单位表⽰⼀个原始分数在团体中所处位置的相对位置量数。

离平均数有多远,即表⽰原始分数在平均数以上或以下⼏个标准差的位置,从⽽明确该分数在团体中的相对地位的量数。标准分数从分数对平均数的相对地位、该组分数的离中趋势两个⽅⾯来表⽰原始分数的222

∑-∑=n X n X S 2

2??? ??∑-∑=n X n X S ()ii T i i i T

n X X n S n S ∑-∑+?∑=222()

i i T i i i T n X X n S n S ∑-∑+?∑=222T S T S i T i X X d -=C X Y +=X Y S S =X C Y ?=X Y S C S ?=%100?=XS CV地位。

(1)标准分数的计算公式及其性质 ①没有实际单位; ②可正可负,可为零;③⼀组原始数据中,各个Z 分数的标准差为1;

④正态分布的原始数据,转换得到的Z 分数是标准的正态分布(0,1)。 (2)Z 分数的作⽤

Z分数可以表明原始分数在团体中的相对位置,因此称为相对位置量数。 把原始分数转换成Z分数,就把单位不等距的和缺乏明确参照点的分数转换成以标准差为单位、以平均数为参照点的分数。 (3)标准分数的优点

● 可⽐性:标准分数以团体的平均数为基准,以标准差为单位,因⽽具有可⽐性。 ● 可加性:标准分数使不同的原始分数具有相同的参照点,因⽽具有可加性。 ● 明确性:标准分数较原始分数的意义更为明确。● 合理性:标准分数保证了不同性质的分数在总分数中的权重相同,使分数更合理地反映事实。

第五章 相关分析 ⼀、相关概述 (⼀)相关的概念

两个变量之间不精确、不稳定的变化关系,称为相关关系。

两个变量之间的变化关系,既表现在变化⽅向上,⼜表现在密切程度上。 两个变量之间的变化⽅向有: 正相关:两个变量的变化⽅向相同。 ? 负相关:两个变量的变化⽅向相反。 零相关:两个变量的变化⽅向⽆⼀定规律。

从关系密切程度来看,两个变量的变化程度可⼤致分为 ? 完全相关:两个变量的变化程度完全⼀致。 ? 强相关:两个变量变化的⼀致性⽐较强。 ? 中等相关:两个变量变化的⼀致程度中等。 ? 弱相关:两个变量变化的⼀致性⽐较差。 ? 完全不相关:两个变量变化程度没有⼀致性。 (⼆)相关系数

⽤来描述两个变量相互之间变化⽅向及密切程度的统计指标称为相关系数,⼀般样本的相关系数⽤r 表⽰,总体的相关系数⽤ρ表⽰。

相关系数的取值: -1≤ r ≤+1 ? 0≤∣r ∣≤1 ? 相关系数的符号:“+”表⽰正相关,“-”表⽰负相关。 相关系数的性质相关系数不是由相等单位度量⽽来的,因此只能⽐较⼤⼩,不能做任何加、减、乘、除运算。s XX Z -=⼆、积差相关

(⼀)积差相关及其适⽤条件

积差相关是英国统计学家⽪尔逊(pearson)于20世纪初提出的⼀种计算相关的⽅法,因⽽被称为⽪尔逊积差相关,也称为积矩相关(product moment correlation)。积差相关适⽤于:

1、两个变量都是连续数据;两变量总体都为正态分布;两变量之间为线性关系。2、成对数据,样本容量要⼤。积差相关条件的判断⽅法:

连续变量:根据得到数据的⽅式判断,测量数据。

正态分布:⼀般情况下,正常⼈群的⾝⾼、体重、智⼒⽔平、⼼理与教育测验的结果,都可按总体正态分布对待;如果要求⽐较⾼,则需要对数据进⾏正态性检验。

线性关系:根据相关散布图可判断两个变量之间是否线性关系。(⼆)相关系数的等距转换及其合并

相关系数不是等距数据,更不是⽐率数据,它只能⽐较相对⼤⼩,不能进⾏加减乘除运算。但我们常会遇到需要将取⾃同⼀总体的⼏个样本的相关系数合成、求平均的相关系数这⼀问题。这时,可以先将相关系数r转换成具有等距单位的Zr值。三、斯⽪尔曼等级相关

等级相关(rank correlation)是指以等级次序排列或以等级次序表⽰的变量之间的相关。

主要包括斯⽪尔曼(spearman)⼆列等级相关和肯德尔和谐系数(the kandall coefficient of concordance)多列等级相关。(⼀)斯⽪尔曼等级相关的概念及适⽤条件

斯⽪尔曼等级相关是等级相关的⼀种。它适⽤于两个以等级次序表⽰的变量,并不要求两个变量总体呈正态分布,也不要求样本的容量必须⼤于30。

当连续数据不能满⾜计算积差相关的条件时,可以转换成等级数据从⽽计算斯⽪尔曼等级相关系数。四、肯德尔和谐系数

肯德尔等级相关⽅法有许多种,肯德尔和谐系数是其中⼀种。肯德尔和谐系数常以rW表⽰,适⽤于多列等级变量的资料。肯德尔和谐系数可以反映多个等级变量变化的⼀致性。肯德尔U系数与W系数的适⽤资料相同。五、质与量的相关(⼀)点⼆列相关适⽤条件

⼀个变量为正态、连续变量,另⼀个变量为真正的⼆分名义变量,这两个变量之间的相关,称为点⼆列相关(point-biserialcorrelation)。

有时⼀个变量并⾮真正的⼆分变量,⽽是双峰分布的变量,也可以⽤点⼆列相关来表⽰。多⽤于评价是⾮类测验题⽬组成的测验内部⼀致性。(⼆)⼆列相关

两个变量都是正态连续变量,其中⼀个变量被⼈为地划分成⼆分变量,表⽰这两个变量之间的相关,称为⼆列相关(biserailcorrelation)。

将连续变量⼈为划分为⼆分变量时,应注意尽量使分界点接*均数。教育或⼼理测验中问答题的区分度指标。六、品质相关

两个变量都是按性质划分成⼏种类别,表⽰这两个变量之间的相关称为品质相关。 品质相关处理的⼀般是计数数据⽽不是连续数据,变量划分为不同的品质类别,主要⽤于双向表或称为列联表(R ×C 表)。品质相关的⽅法有多种,最常⽤的是四分相关、Φ相关和列联表相关。第六章 概率分布

⼀、概率的定义 (⼀)基本概念

概率(probability ):表明随机事件可能性⼤⼩的客观指标。 概率的两种定义:后验概率和先验概率。 后验概率(或统计概

率)

随机事件的频率:

当n ⽆限增⼤时,随机事件A 的频率会稳定在⼀个常数P ,这个常数就是随机事件A 的概率。先验概率(古典概率)

古典概率模型要求满⾜两个条件:

⑴ 试验的所有可能结果是有限的; ⑵ 每⼀种可能结果出现的可能性相等。 (⼆)概率的公理系统1.任何随机事件A的概率都是在0与1之间的正数,即 0 ≤ P (A )≤1

2.不可能事件的概率等于零,即 P (A )= 0 3.必然事件的概率等于1,即 P (A )= 1 (三)概率分布类型概率分布(probability distribution )是指对随机变量取不同值时的概率的描述,⼀般⽤概率分布函数进⾏描述。依不同的标准,对概率分布可作不同的分类。 1、离散型分布与连续型分布

依随机变量的类型,可将概率分布分为离散型概率分布与连续型概率分布。⼼理与教育统计学中最常⽤的离散型分布是⼆项分布,最常⽤的连续型分布是正态分布。 2、经验分布与理论分布依分布函数的来源,可将概率分布分为经验分布与理论分布。

经验分布(empirical distribution )是指根据观察或实验所获得的数据⽽编制的次数分布或相对频率分布。

理论分布(theoretical distribution )是按某种数学模型计算出的概率分布。 3、基本随机变量分布与抽样分布依所描述的数据的样本特性,可将概率分布分为基本随机变量分布与抽样分布(sampling distribution )。 基本随机变量分布是随机变量各种不同取值情况的概率分布,抽样分布是从同⼀总体内抽取的不同样本的统计量的概率分布。n m W A =)(nmP A =)(

⼆、概率分布——正态分布 (⼀)正态分布特征

正态分布(normal distribution )也称为常态分布,是连续型随机变量概率分布的⼀种,是在数理统计的理论与实际应⽤中占有最重要地位的⼀种理论分布。 1.正态分布曲线函数正态分布曲线函数⼜称概率密度函数,其⼀般公式为:

公式所描述的正态曲线,由σ和µ两个参数决定。 2、正态分布的性质 正态分布是以

为中⼼的对称分配。 ? 正态分布有 2 个参数: m (平均数)以及 s (标准差) ,其决定了分配的位置及形状。

正态分布曲线下⾯的⾯积总和等于1。

正态分布 在 时有⼀转折点。 ? 正态分布曲线的两尾⽆限延伸。

正态分布是⼀族曲线,标准正态分布是⼀条曲线。 3、标准正态分布曲线将标准分数代⼊正态曲线函数,并且,令σ=1,则公式变换为标准正态分布函数:

标准正态分布曲线的特点⑴.曲线在Z=0处达到最⾼点⑵.曲线以Z=0处为中⼼,双侧对称

⑶.曲线从最⾼点向左右缓慢下降,向两侧⽆限延伸,但永不与基线相交。

⑷.标准正态分布曲线的平均数为0,标准差为1。从Z=-3⾄Z=+3之间⼏乎分布着全部数据。⑸.曲线的拐点为正负⼀个标准差处。 4、正态分布表的使⽤ 已知Z 值求概率⑴.求Z=0⾄某⼀Z值之间的概率:直接查表 ⑵.求两个Z值之间的概率

两Z值符号相同:PZ1-Z2=PZ2-PZ1 ? 两Z值符号相反:PZ1-Z2=PZ2+PZ1 ⑶.求某⼀Z 值以上的概率 Z >0时,PZ -∞=0.5-PZ ? Z <0时,PZ -∞=0.5+PZ ⑷.求某⼀Z 值以下的概率 Z >0时,P -∞-Z =0.5+PZ ? Z <0时,P -∞-Z =0.5-PZ()222σ

µπσ--?=X e N Y µ)(x f σ

µ±=X ()22221σµπσ--?=X e Y 2221Z e Y -?=π

已知⾯积(概率)求Z 值

⑴.求Z =0以上或以下某⼀⾯积对应的Z 值:直接查表

⑵.求与正态曲线上端或下端某⼀⾯积P 相对应的Z 值:先⽤0.5-PZ ,再查表 ⑶.求与正态曲线下中央部位某⼀⾯积相对应的Z 值:先计算P /2,再查表已知概率P或Z 值,求概率密度Y

⑴.直接查正态分布表就能得到相应的概率密度Y值。

⑵.如果由概率P求Y值,要注意区分已知概率是位于正态曲线的中间部分,还是两尾端部分,才能通过查表求得正确的概率密度。 三、概率分布——⼆项分布 (⼀)⼆项试验与⼆项分布

⼆项分布(bionimal distribution )是⼀种具有⼴泛⽤途的离散型随机变量的概率分布,它是由贝努⾥创始的,因此⼜称为贝努⾥分布。 1.⼆项试验

满⾜以下条件的试验称为⼆项试验:

⼀次试验只有两种可能的结果,即成功和失败; ? 共有n 次试验,并且n 是预先给定的任⼀正整数; ? 各次试验相互独⽴,即各次试验之间互不影响; ? 各次试验中成功的概率相等,失败的概率也相等。 2.⼆项分布函数 ⼆项分布是⼀种离散型随机变量的概率分布。

⽤ n 次⽅的⼆项展开式来表达在 n 次⼆项试验中成功事件出现的不同次数(X =0,1…)的概率分布,叫做⼆项分布函数。⼆项展开式的通式(即⼆项分布函数):3、⼆项分布的平均数和标准差

如果⼆项分布满⾜p >q 且 nq ≥5(或者p <q 且 np ≥5时,⼆项分布接近于正态分

布。可⽤下⾯的⽅法计算⼆项分布的平均数和标准差。 ? ⼆项分布的平均数为: ? ⼆项分布的标准差为: 4、⼆项分布的应⽤⼆项分布函数除了⽤来求成功事件恰好出现X 次的概率之外,在教育中主要⽤来判断试验结果的机遇性与真实性的界限。四、概率分布——样本分布 (⼀)、抽样分布

区分三种不同性质的分布:

总体分布:总体内个体数值的频数分布 ? 样本分布:样本内个体数值的频数分布 ? 抽样分布:某⼀种统计量的概率分布 1.抽样分布的概念

抽样分布是从同⼀总体内抽取的不同样本的统计量的概率分布。 抽样分布是⼀个理论的概率分布,是统计推断的依据。 2.平均数抽样分布的⼏个定理X n X X n q p C p n x b -??=),,(np=µnpq =σ

⑴.从总体中随机抽出容量为n 的⼀切可能样本的平均数之平均数等于总体的平均数。

⑵.容量为n 的平均数在抽样分布上的标准差(即平均数的标准误),等于总体标准差除以n 的平⽅根。⑶.从正态总体中,随机抽取的容量为n 的⼀切可能样本平均数的分布也呈正态分布。

⑷.虽然总体不呈正态分布,如果样本容量较⼤,反映总体µ和σ的样本平均数的抽样分布,也接近于正态分布。 (⼆)标准误

某种统计量在抽样分布上的标准差,称为标准误。标准误⽤来衡量抽样误差。标准误越⼩,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,⽤样本统计量推断总体参数的可靠度越⼤。因此,标准误是统计推断可靠性的指标。平均数标准误的计算

1.总体正态,σ已知(不管样本容量⼤⼩),或总体⾮正态,σ已知,⼤样本平均数的标准误为:

2.总体正态,σ未知(不管样本容量⼤⼩),或总体⾮正态,σ未知,⼤样本平均数标准误的估计值为:(三)平均数离差统计量的分布

1.总体正态,σ已知(不管样本容量⼤⼩),或总体⾮正态,σ已知,⼤样本平均数离差的的抽样分布呈正态分布正态总体,样本平均数的抽样分布

2.总体正态,σ未知(不管样本容量⼤⼩),或总体⾮正态,σ未知,⼤样本平均数离差的的抽样分布呈t 分布 t 分布的特点⑴.形状与正态分布曲线相似

⑵.t 分布曲线随⾃由度不同⽽有⼀簇曲线

⑶.⾃由度的计算:⾃由度是指能够独⽴变化的数据个数。 ⑷.查t 分布表时,需根据⾃由度及相应的显著性⽔平,并要注意是单侧数据还是双侧。 3.总体σ未知,⼤样本时的近似处理

样本容量增⼤后,平均数的抽样分布接近于正态分布,可⽤正态分布近似处理:µ

=)(X E n σσ=n X σσ=1-=n S X σn X X Z σµσµ-=-=1--=

-=n S X X t X µσµnS X X Z µ

σµ-=-='µµ=X nX 22σσ=第七章参数估计

⼀、点估计、区间估计与标准误(⼀)总体参数估计的基本原理

根据样本统计量对相应总体参数所作的估计叫作总体参数估计。总体参数估计分为点估计和区间估计。

由样本的标准差估计总体的标准差即为点估计;⽽由样本的平均数估计总体平均数的取值范围则为区间估计。(⼆)点估计

1、良好的点估计量应具备的条件⽆偏性

如果⼀切可能个样本统计量的值与总体参数值偏差的平均值为0,这种统计量就是总体参数的⽆偏估计量。有效性

当总体参数不⽌有⼀种⽆偏估计量时,某⼀种估计量的⼀切可能样本值的⽅差⼩者为有效性⾼,⽅差⼤者为有效性低。⼀致性

当样本容量⽆限增⼤时,估计量的值能越来越接近它所估计的总体参数值,这种估计是总体参数⼀致性估计量。充分性

⼀个容量为n的样本统计量,应能充分地反映全部n个数据所反映的总体的信息。2、点估计量的缺点有偏差

没有提供正确估计的概率,即不能提供估计值与参数真值的接近程度和可靠程度(三)区间估计

区间估计可以解决这个问题。区间估计得出的不是⼀个单⼀数值,⽽是⼀个数值区间。它既可以告诉我们参数的真值在什么范围内,⼜能告诉我们参数的真值落在这个范围的概率有多⼤。区间估计的基础——抽样分布

根据抽样分布的特点及原理,不同总体条件下,可能会有不同的抽样分布,则可得到不同条件下总体参数的区间估计的计算⽅法。

区间估计涉及和置信区间和显著性⽔平。1、区间估计

以样本统计量的抽样分布(概率分布)为理论依据,按⼀定概率的要求,由样本统计量的值估计总体参数值的所在范围,称为总体参数的区间估计。

对总体参数值进⾏区间估计,就是要在⼀定可靠度上求出总体参数的置信区间的上下限。⑴要知道与所要估计的参数相对应的样本统计量的值,以及样本统计量的理论分布;⑵要求出该种统计量的标准误;

⑶要确定在多⼤的可靠度上对总体参数作估计,再通过某种理论概率分布表,找出与某种可靠度相对应的该分布横轴上记分的临界值,才能计算出总体参数的置信区间的上下限。

置信区间

置信度,即置信概率,是作出某种推断时正确的可能性(概率)。

置信区间,也称置信间距(confidence interval,CI )是指在某⼀置信度时,总体参数所在的区域距离或区域长度。置信区间是带有置信概率的取值区间。显著性⽔平

对总体平均数进⾏区间估计时,置信概率表⽰做出正确推断的可能性,但这种估计

还是会有犯错误的可能。显著性⽔平(significance level)就是指估计总体参数落在某⼀区间时,可能犯错误的概率,⽤符号α表⽰。P =1-α

2、平均数区间估计的基本原理

通过样本的平均数估计总体的平均数,⾸先假定该样本是随机取⾃⼀个正态分布的母总体(或⾮正态总体中的n >30的样本),⽽计算出来的实际平均数是⽆数容量为n 的样本平均数中的⼀个。

根据样本平均数的分布理论,可以对总体平均数进⾏估计,并以概率说明其正确的可能性。三、总体平均数的估计(⼀)总体平均数的区间估计1.总体平均数区间估计的基本步骤

①.根据样本的数据,计算样本的平均数和标准差; ②.计算平均数抽样分布的标准误; ③.确定置信概率或显著性⽔平;④.根据样本平均数的抽样分布确定查何种统计表; ⑤.计算置信区间;⑥.解释总体平均数的置信区间。 2.平均数区间估计的计算

①总体正态,σ已知(不管样本容量⼤⼩),或总体⾮正态,σ已知,⼤样本样本平均数的分布呈正态,平均数的置信区间为:

②总体正态,σ未知(不管样本容量⼤⼩),或总体⾮正态,σ未知,⼤样本样本平均数的分布为t 分布,平均数的置信区间为:③总体正态,σ未知,⼤样本

平均数的抽样分布接近于正态分布,⽤正态分布代替t 分布近似处理:④ 总体⾮正态,⼩样本

不能进⾏参数估计,即不能根据样本分布对总体平均数进⾏估计。n Z X n Z X σµσαα?+<2-?+<<-?-n S

t X n S t X df df ααµn SZ X n S Z X ?+<第⼋章假设检验⼀、假设检验的原理(⼀)、假设检验的基本原理

利⽤样本信息,根据⼀定概率,对总体参数或分布的某⼀假设作出拒绝或保留的决断,称为假设检验。

1、假设

假设检验⼀般有两互相对⽴的假设。

H0:零假设,或称原假设、虚⽆假设(null hypothesis)、解消假设;是要检验的对象之间没有差异的假设。

H1:备择假设(alternative hypothesis),或称研究假设、对⽴假设;是与零假设相对⽴的假设,即存在差异的假设。进⾏假设检验时,⼀般是从零假设出发,以样本与总体⽆差异的条件计算统计量的值,并分析计算结果在抽样分布上的概率,根据相应的概率判断应接受零假设、拒绝研究假设还是拒绝零假设、接受研究假设。2、⼩概率事件

样本统计量的值在其抽样分布上出现的概率⼩于或等于事先规定的⽔平,这时就认为⼩概率事件发⽣了。把出现概率很⼩的随机事件称为⼩概率事件。

当概率⾜够⼩时,可以作为从实际可能性上,把零假设加以否定的理由。因为根据这个原理认为:在随机抽样的条件下,⼀次实验竟然抽到与总体参数值有这么⼤差异的样本,可能性是极⼩的,实际中是罕见的,⼏乎是不可能的。3、显著性⽔平

统计学中把拒绝零假设的概率称为显著性⽔平,⽤α表⽰。显著性⽔平也是进⾏统计推断时,可能犯错误的概率。常⽤的显著性⽔平有两个:α=0.05 和α=0.01。4.假设检验中的两类错误及其控制

对于总体参数的假设检验,有可能犯两种类型的错误,即α错误和β错误。假设检验中的两类错误

结论

(1)两类错误既有联系⼜有区别α错误只在否定H0时发⽣β错误只在接受H0时发⽣α错误增加β错误减⼩β错误增加α错误减⼩

(2)n , σ2 可使两类错误的概率都减⼩.

为了将两种错误同时控制在相对最⼩的程度,研究者往往通过选择适当的显著性⽔平⽽对α错误进⾏控制,如α=0.05或α=0.01。

对β错误,则⼀⽅⾯使样本容量增⼤,另⼀⽅⾯采⽤合理的检验形式(即单侧检验或双侧检验)来使β误差得到控制。在确定检验形式时,凡是检验是否与假设的总体⼀致的假设检验,α被分散在概率分布曲线的两端,因此称为双侧检验。双侧检验的假设形式为:H0:µ=µ0, H1:µ≠µ0

凡是检验⼤于或⼩于某⼀特定条件的假设检验,α是在概率分布曲线的⼀端,因此称为单侧检验。单侧检验的假设形式为:H0:µ≥µ0,H1:µ<µ0或者 H0:µ≤µ0,H1:µ>µ05.假设检验的基本步骤

⼀个完整的假设检验过程,⼀般经过四个主要步骤:⑴.提出假设

⑵.选择检验统计量并计算统计量的值⑶.确定显著性⽔平⑷.做出统计结论⼆、平均数的显著性检验(⼀)总体平均数的显著性检验

总体平均数的显著性检验是指对样本平均数与总体平均数之间的差异进⾏的显著性检验。若检验的结果差异显著,可以认为该样本不是来⾃当前的总体,⽽来⾃另⼀个、与当前总体存在显著差异的总体。即,该样本与当前的总体不⼀致。1.总体平均数显著性检验的原理

检验的思路是:假定研究样本是从平均数为µ的总体随机抽取的,⽽⽬标总体的平均数为µ0,检验µ与µ0之间是否存在差异。如果差异显著,可以认为研究样本的总体不是平均数为µ0的总体,也就是说,研究样本不是来⾃平均数为µ0的总体。2.总体平均数显著性检验的步骤

⼀个完整的假设检验过程,⼀般经过四个主要步骤:⑴.提出假设

⑵.选择检验统计量并计算统计量的值⑶.确定显著性⽔平⑷.做出统计结论⑴.提出假设

双侧检验的假设形式为:H0:µ=µ0, H1:µ≠µ0单侧检验的假设形式为:

H0:µ≥µ0,H1:µ<µ0 (左侧检验)或者 H0:µ≤µ0,H1:µ>µ0 (右侧检验)⑵.选择检验统计量并计算结果

直接应⽤原始数据检验假设是有困难的,必须借助于根据样本构造出来的统计量,⽽且针对不同的条件,需要选择不同的检验统计量。

⑶.确定显著性⽔平

在假设检验中有可能会犯错误。如果零假设是正确的,却把它当成错误的加以拒绝,就会犯α错误。 α表⽰做出统计结论时犯错误的概率,称为显著性⽔平。

显著性⽔平⼀般为0.05和0.01。 ⑷.做出统计结论

根据已确定的显著性⽔平,查统计量的分布表,找到该显著性⽔平时统计量的临界值,并以计算得到的统计量值与查表得到的临界值⽐较,根据统计决断规则做出拒绝或接受零假设的决定。3.平均数显著性检验的⼏种情形 ⑴.总体为正态,总体标准差σ已知平均数的抽样分布服从正态分布,以Z为检验统计量,其计算公式为:

例1:某⼩学历届毕业⽣汉语拼⾳测验平均分数为66分,标准差为11.7。现以同样的试题测验应届毕业⽣(假定应届与历届毕业⽣条件基本相同),并从中随机抽18份试卷,算得平均分为69分,问该校应届与历届毕业⽣汉语拼⾳测验成绩是否⼀样? 解:H0:µ=µ0, H1:µ≠µ0

学⽣汉语拼⾳成绩可以假定是从正态总体中抽出的随机样本。总体标准差已知,样本统计量的抽样分布服从正态,以Z 为检验统计量

显著性⽔平为α=0.05,双侧检验

查表得Z α=1.96,⽽计算得到的Z=1.09 |Z|<Zα,则概率P >0.05差异不显著,应在0.05显著性⽔平接受零假设

结论:该校应届毕业⽣与历届毕业⽣汉语拼⾳测验成绩⼀致,没有显著差异。 双侧Z 检验统计决断规则

单侧Z 检验统计决断规则n X X Z Xσµσµ00-=

-=n X Z σµ0-=187.116669-=09.1=

⑵.总体为正态,总体标准差σ未知,样本容量⼩于30

平均数的抽样分布服从t 分布,以t 为检验统计量,计算公式为: 例3:某区初三英语统⼀测验平均分数为65,该区某校20份试卷的平均分数为69.8,标准差为9.234。问该校初三年级英语平均分数与全区是否⼀样?⑶.总体标准差σ未知,样本容量⼤于30

平均数的抽样分布服从t 分布,但由于样本容量较⼤,平均数的抽样分布接近于正态分布,因此可以⽤Z 代替t 近似处理,计算公式为:

⑷.总体⾮正态,⼩样本

不能对总体平均数进⾏显著性检验。三、平均数差异的显著性检验

平均数差异显著性检验的统计量及计算公式 (⼀)两总体正态,两总体⽅差已知

总体⽅差已知条件下,平均数之差的抽样分布服从正态分布,以Z作为检验统计量,计算公式为:1.两样本独⽴2.两样本相关

两样本相关的判断:两个样本的数据之间存在着⼀⼀对应的关系时,称两样本为相关样本。常见的情形主要包括三种:⼀是同⼀组被试在前后两次在同⼀类测验上的结果;⼆是同⼀组被试分别接受两种不同实验的测验结果;三是按条件相同的原则选择的配对实验结果。

例1:某幼⼉园在⼉童⼊园时对49名⼉童进⾏了⽐奈智⼒测验(σ=16),结果平均智商为106。⼀年后再对同组被试施测,结果平均智商分数为110。已知两次测验结果的相关系数为r=0.74,问能否说随着年龄的增长和⼀年的教育,⼉童智商有了显著提⾼?1

0--=-=n S X X t µσµ1-=n df n S X X Z X0µσµ-=

-='X D SE X X Z 21-=2221212

1n n X X Z σσ+-=

n r X X Z 2122212

12σσσσ??-+-=

解:H0:µ1≤µ2 H1: µ1>µ2 正常⼉童的智⼒测验结果,可以认为是从正态总体中随机抽出的样本。总体标准差已知,⽽同⼀组被试前后两次的测验成绩,属于相关样本。因此平均数之差的抽样分布服从正态分布,应选⽤Z作检验统计量,并选择相关样本、总体标准差已知的计算公式。提⽰:σ1=σ2=16 显著性⽔平为α=0.05

单侧检验时Z0.05=1.65,Z0.01=2.33 ⽽计算得到的Z=1.71﹡

Z0.05 <|Z|<Z0.01,则概率 0.05>P >0.01 差异显著,应在0.05显著性⽔平接受零假设

结论:可以说随着年龄的增长和⼀年的教育,⼉童智商有了显著提⾼。 (⼆)两总体正态,两总体⽅差未知

总体⽅差未知条件下,平均数之差的抽样分布服从t 分布,以t 作为检验统计量,计算公式为: 1.两样本独⽴,两总体⽅差⼀致

⽅差齐性检验

⽅差齐性检验是对两总体⽅差是否齐性(即是否⼀致或是否存在显著性差异)进⾏的检验。⽅差齐性检验的统计量是F,其概率分布遵循F分布。

若从⽅差相同的两个正态总体中,随机抽取两个独⽴样本,以此为基础,分别求出两个相应总体⽅差的估计值,这两个总体⽅差的估计值的⽐值称为F ⽐值,其计算公式为 实际应⽤中,常需以样本⽅差估计总体⽅差,因此公式为 当两样本容量相差不⼤时,上式可简化为

2、两样本独⽴,两总体⽅差不齐性

对于⽅差不齐性的独⽴样本,平均数差异的显著性可能由两⽅⾯的原因造成:⼀是两平均数确实存在显著差异;⼆是两总体⽅差之间存在显著差异。

当两总体的⽅差之间差异显著时,运⽤⼀般的t 检验不准确,需要进⾏特别的检验。 总体⽅差不齐性的两个独⽴样本平均数之差的标准误,可⽤两个样本⽅差分别估计出的两个平均数标准误平⽅之和再开⽅来表⽰。

这时样本平均数之差与相应总体平均数之差的离差统计量,既不是Z 分布,也不是t 分布,⽽是与t 分布相近似的t ′分布。n r X X Z 2122212

12σσσσ-+-=49161674.02161611010622-+-=34.2=XDSE X X t 21-=212

1212222112

12n n n n n n S n S n X X t ?+?-+?+?-=221-+=n n df 22

2

1σσ=F ()()1/1/22221211--=n S n n S n F 2221S SF =

因篇幅问题不能全部显示,请点此查看更多更全内容