1.企业发展战略,2.产品质量管理,3市场研究,4.财务分析,5.经济预测,6.人力资源管理)
主要术语概念(选择判断)
1. 总体:包含所研究的全部个体(数据)的集合。 2. 样本:从总体中抽取的一部分元素的集合。 3. 参数:用来描述总体特征的概括性数字度量。 4. 统计量:用来描述样本特征的概括性数字度量。 5. 变量:说明现象某种特征的概念。
6. 简单随机抽样:也称纯随机抽样,它是从含有N个元素的总体中,抽取n个元素作为
样本,使得总体中的每一个元素都有相同的机会(概率)被抽中。
7. 分层抽样:也称分类抽样,它是在抽样之前先将总体的元素划分为若干层(类),然后
从各个层中抽取一定数量的元素组成一个样本。
8. 系统抽样:也称等距抽样或机械抽样,它是先将总体中的各元素按某种顺序排列,并按
某种规则确定一个随机起点;然后,每隔一定的间隔抽取一个元素,直至抽取n个元素形成一个样本。
9. 整群抽样:先将总体划分成若干群,然后以群作为抽样单位从中抽取部分群,随后再对
抽中的各个群中所包含的所有元素进行观察。
ˆ表示。 10. 估计量:用来估计总体参数的统计量的名称,用符号11. 估计值:用来估计总体参数时计算出来的估计量的具体数值。
ˆ的某个取值直接作为总体参数的估计值。 12. 点估计:用样本统计量13. 区间估计:在点估计的基础上,给出总体参数估计的一个范围。
14. 置信区间:由样本统计量所构造的总体参数的估计区间。
15. 置信水平:也称为置信系数,它是将构造置信区间的步骤重复多次后,置信区间中包含
总体参数真值的次数所占的比率。
16. 假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。 17. 单侧检验:也称单尾检验,是指备择假设具有特定的方向性,并含有符号“>”或“<”
的假设检验。
18. 拒绝域:能够拒绝原假设的检验统计量的所有可能取值的集合。 19. 临界值:根据给定的显著性水平确定的拒绝域的边界值。
20. P值:也称观察到的显著性水平,如果原假设H0是正确的,那么所得的样本结果出现实际观测结果那么极端的概率
21. 相关关系:变量之间存在的不确定的数量关系。 22. 相关系数:也称Pearson相关系数,是根据样本数据计算的度量两个变量之间线性关系
强度的统计量。
ˆi之间的离差平方和达23. 最小二乘法:也称最小平方法,使因变量的观察值yi与估计值yˆ和ˆ的方法。 到最小来求得10
第一章
1.理解“总体”,“样本”,“变量” P7-P9 第2章
2.理解“简单随机抽样”,“分层抽样”,“整群抽样”,“系统抽样” P18 3.理解“非抽样误差”P35和“误差的控制”P39
第3章
4.看一下品质数据的整理与展示,注重“分类数据的整理与展示” P52 5.“数据型数据的整理与展示” P61 注重数值型数据的图示。
第4章
6.集中趋势的度量:理解众数,中位数,分位数 P86-P88 7.加权平均数的公式 P92
8.组中值的平均数计算,例题P92 9.标准差公式 P100 10.标准分数公式 P101 11.离散系数公式 P103
12.当K取不同值时表示的含义 P107
第7章
13.点估计与区间估计 P177 14.理解置信区间饿3点 P179
15.评价估计量的标准:无偏性,有效性,一致性(理解) P181 16.总体均值的区间估计 P183 17.例题7.2 P184
18.不同情况下总体均值的区间估计(表格) P186 19.总体比例的区间估计 P187
20.例题7.4 P187 例题7.7 P191 例题7.8 P192 21.样本量的确定 P201
第8章
22.理解“两类错误”的含义 P213
23.假设检验的流程 P215-P217 (不考计算,单选或判断) 24.左单侧检验 右单侧检验 (单选,判断)
第11章
25.变量间关系的度量 P312
26.散点图 含义 P314 不同形态的散点图代表的意思 P315 27.相关系数公式 P317 28.相关系数的性质 P318 29.一元线形回归方程 P323 30.估计的回归方程 P323 31.解方程组的公式: P324
32.时间序列的描述性分析 重点 P388-P391
理解(选择判断)
1.抽样误差,非抽样误差,误差的控制.P35,P39
抽样误差:由于抽样的随机性引起的样本,结果与总体真值之间的误差.(是一种随机性误差,只存在于概率抽样中)
抽样误差的控制:它是不可避免的,控制方法:改变样本量,抽样误差越小,所需要的样本量就越大.
非抽样误差:相对抽样误差而言,是指抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异.(不但存在概率误差,而且存在于非概率误差)
非抽样误差的控制:主要是调查过程的质量控制.(包括调查员的挑选,调查员的培训,督导员的调查专业水平,对调查过程进行奖惩的制度,等等)
2.数据的整理与展示 数据类型 品分类质数据 数据 顺序数据 整理方法 图示方法 1.频数: 落在某一特定类别(或组)中的数据个数。 ①条形图 2.频数分布: 数据在各类别(或组)中的分配。 ②帕累托图 3.比例: 一个样本(或总体)中各个部分的数据与全③饼图 部数据之比。 4.比率: 样本(或总体)中各不同类别数值之间的比值。 1.累积频数: 将各有序类别或组的频数逐级累加起来得到的频数。 2.累积频率: 将各有序类别或组的百分比逐级累加起来得到的频数。 数据的分组:根据统计研究的需要,将原始数据按照某种标准化分成不同的组别.步骤如下: 1.确定组数:K=1+ 2.确定组距:(最大值-最小值)/组数 组中值=(下限值+上限值)/2 3.根据分组整理成频数分布表(统计) ①累积频率分布图 ②环形图 数 值 型 数 据 品质形的都适合用于数值型,但以上的不适合于品质型. 分组数据:直方图,折线图,曲线图 未分组数据:茎叶图,箱线图 时间序列数据:线图 多变数据:散点图,气泡图,雷达图 3.离散程度的度量 P96
数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;越小代表性就越好..主要采用测度值来描述.根据数据类型的不同主要的测度值主要有异比众率(分类数据),四分位差(顺序数据),方差和标准差,极差,平均差(数值型数据)
4.点估计与区间估计含义P177
ˆ点估计:是用样本统计量 的某一个取值直接作为总体参数θ的估计值.
区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减抽样误差得到.
5.对置信区间的理解,注意的几点:P179
(1)如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法的构造的区间称为置信水平为95%的置信区间. (2)总体参数的真值是固定的,未知的,而用样本构造的区间则是不固定的.
(3)在实际问题中,进行估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如95%)下的置信区间.
6.评价估计量的标准予P180
1.无偏性:是指估计量抽样分布的数学期望等于被估计的总体参数.设总体参数为θ,所选择的估计量为 ˆ ,如果E( ˆ )=θ,则称为θ的无偏估计量.
2.有效性:对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效. (3)一致性:指随差样本量的增大,点估计量的值越来越接近被须总体的参数.
7.两类错误区P213
α错误(弃真错误):原假设Ho为真却被我们拒绝了,犯这种错误的概率α用表示。 β错误(取伪错误):原假设为伪我们却没有拒绝,犯这种错误的概率β用表示。
8.假设检验的流程。P215 利用P值进行决策P217
9.单侧检验P218
1左单侧检验 (越大越好) 2.右单侧检验 (越小越好)
10.变量间关系的度量 P312
11.散点图 含义 P314 不同形态的散点图代表的意思 P315
12.相关系数的含义,性质P318
相关系数是根据计算的度量两个变量之间线性关系强度的统计量。总体相关系数用ρ表示,样本相关系数用r表示。 性质:(1)相关系数r的取值范围是-1≤r ≤ 1,一般取小数点后两位。 r的正负号表明两变量间变化的方向;|r|表明两变量间相关的程度,r>0表示正相关,r<0表示负相关,r=0表示零相关。|r|越接近于1,表明两变量相关程度越高,它们之间的关系越密切。
①取值范围:| r | ≤1
②表示相关方向:r >0为正相关;r >0为负相关。
③判别相关程度的方法及标准:r=0为不相关,| r |<0.3为微弱相关,0.3<|r|<0.5为低度相关,0.5<|r|<0.8为显著相关,0.8<| r |<1为高度相关,| r |=1为完全相关。 (2)r具有对称性。
(3)r数值大小与x和y的原点及尺度无关。
(4)r仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性相关系。
(5)r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。
13.时间序列的描述性分析 重点 P388-P391
主要公式(计算题)
(一)集中趋势的度量主要公式 名称 中位数 P87一组数据排序后处于中间位置上的变量值 公式 xn12Me1xnxn1222n为奇数 n为偶数简单样本平均数 xkxi1nin 加权样本平均数 xMi1ifin fi各组变量值出现的频数 Mi各组组中值=(各组最大值+各组最小值)/2 几何平均数 异众比率(是指非众数组的频数占总频数的比例..Vr越大,说明非众数组的频数占总频数的比搬弄是重越大,众数的代表性就越差.) 四分位差(内距,四分间距)反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;越大,说明中间数据越分散. 极差:(全距)描述数据离散程度的最简单测度值,受极端值影响. 简单平均差 (未分组数据)平均差越大说明数据的离散程度越大.反之. Gmnx1x2xnnfffiixi1ni Vrm1fm fiQdQUQL Rmax(xi)min(xi) Mdkxi1nixn 加权平均差 (分组数据) MdMi1ixfin 简单样本方差 (未分组数据)P99 s2k(xi1nix)2n1 加权样本方差 (分组数据) s2(Mi1ix)2fin12(xx)ii1n 简单样本标准方差 (未分组数据)P100 skn1 加权样本标准差 (分组数据) s(Mi1ix)2fi n1xix s标准分数 (变量值与其平均数的离差除以标准差后的值。)P101 离散系数(变异系数)是一组数据的标准差与其相应的平均数之比..离散系数大,数据的离散程度大.反之..它们是成正比的.P103 (二)抽样分布主要公式 zivss ( s标准差,x平均数) x总体均值的置信区间(正态总体,P183 已知)注意P184例题 总体均值的置信区间(未知,大样本)P183 总体均值的置信区间(正态总体,未知,小样本) 总体比例的置信区间P187( 注意P187.192例题) 估计总体均值时的样本容量P201(注意P202例题) 估计总体比例时的样本容量 xz2nsn xz2 xt2sn pz2p(1p) n n(z2)22E2n(z2)2(1)E2 (三)回归主要公式 相关系数P317 rnxyxynx(x)ny(y)2222 回归方程P323 E(y)=β0+β1x (β0:在Y轴上的截距,β1:斜率,表示x每变动一单位,Y的平均变动值) 一元线性方程P323 回归方程的截距P324 ˆyˆx 01nxiyixiyii1i1i1nnn回归方程的斜率(回归系数)P324 ˆ1nxi2xii1i1nn2 时间序列主要公式 环比增长率P390 GiGiYi1 Yi1定基增长率 YiY0Yi1 Y0Y0平均增长率 GnYYY1Y2n1nn1 Y0Y1Yn1Y0
简答题:
1. 统计数据可以分为哪几种类型?不同类型的数据各有什么特点?P5
答:1.①按照所采用的计量尺度不同,可以将统计数据分为分类数据,顺序数据和数值型数据。②按照统计数据的收集方法,可以将统计数据分为观测数据和实验数据。③按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。2.分类数据和顺序数据说明的是事物的物质特征,通常用文字表述,其结果均表现为类别。数值型数据说明的是现象的数量特征,通常用数值来表现。观测数据是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。实验数据则是在实验室中控制对象而收集到的数据。截面数据通常是在不同的空间获得的,用于描述现象在某一时刻的变化情况。时间序列数据是按时间顺序收集到的,用于描述现象随时间变化的情况。
数据的类型 按计量尺度 分类数据 顺序数据 数值型数据 只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的. 归于某一有序类别的非数字型数据,数据表现为类别,但是有序的. 现象的数量特征,通常用数值来表现。 通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 在实验室中控制对象而收集到的数据。 在不同的空间获得的,用于描述现象在某一时刻的变化情况。 按时间顺序收集到的,用于描述现象随时间变化的情况。 按收集方法 按时间状况 观测数据 实验数据 截面数据 时序数据 2、比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样?什么情况下适合非概率抽样? 答:概率抽样的特点○1抽样时是按一定的概率以随机原则抽取样本。
2每个单位被抽中的概率是已知的,或是可以计算出来的。 ○
3当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。 ○
非概率抽样的特点:操作简便,时效快,成本低,而且对于抽样中的统计学专业技术要求不是很高。
非概率抽样适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析提供准备。同时也适合市场调查中的概念测试,如产品包装测试、广告测试等。
概率抽样适合调查的目标是用样本的调查结果对总体相应的参数进行估计,并计算估计的误差,得到总体参数的置信区间。
2.概率抽样的含义及其特点。P17
答:概率抽样也称随机抽样,是指遵循随机原则进行的抽样。 特点:①抽样时是按一定的概率以随机原则抽取样本。
②每个单位被抽中的概率是已知的,或是可以计算出来的。
③当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。
3.直方图与条形图有何区别? P65 答:直方图与条形图的区别有:
①条形图是用条形的长度表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。
②由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。 ③条形图主要用于表示分类数据,而直方图则主要用于表示数值型数据。
4.制作统计表应该注意哪几个问题?P77 P75 答:制作统计表时应考虑以下几点:
①要合理安排统计表的结构,比如行标题,列标题,数字资料的位置应安排合理。 ②表头一般应包括表号,总标题和表中数据单位等内容。
③表中的上下两条横线一般用粗线,中间的其他线要用细线,这样使人看起来清楚,醒目。
一张好的图表应显示好数据,让读者把注意力集中在图形的内容上,而不是制作图形的程序上,避免歪曲,强调数据之间的比较,服务于一个明确的目的,有对图形的统计描述和文字说明。
5.简述时间序列的构成要素。
答:时间序列指将某一统计指标数据按照时间顺序排列起来而形成的统计序列。 时间序列的构成要素有时间要素和数据要素,时间要素指现象所属的时间,而数据要素指的是不同时间上的统计数据。
6.为什么要计算离散系数? P102 答:方差和标准差是反映数据分散程度的绝对值,其数值的大小一方面手本身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高,离散程度的测度值自然也大,绝对水平小的离散程度测度值自然也就小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。所以对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。
7.简述众数,中位数,平均数的特点和应用场合。P86 P88 P91
答:众数是一组数据中出现次数最多的变量值。主要用于测度分类数据的集中趋势,也适用于作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下,众数才有意义。
中位数是一组数据排序后处于中间位置上的变量值,主要用于测度顺序数据当然也适用于作为数值型数据的集中趋势,但不适用于分类数据。
平均数是一组数据相加后除以数据的个数得到的结果,主要适用于数值型数据,而不适用于分类和顺序数据。
8.简述平稳序列与非平稳序列的含义。 P386
答:时间序列可以分为平稳序列和非平稳序列两大类。
平稳序列是基本不存在趋势的序列。这类序列中的各观察值基本上在某个固定的水平上波动,虽然在不同时间段波动的程度不同,但并不存在某种规律,其波动可以看成是随机的。 非平稳序列是包含趋势,季节性或周期性的序列,它可能只含有其中的一种成分,也可能是几种成分的组合。因此,非平稳序列由可以分为有趋势的序列,有趋势和季节性的序列,几种成分混合而成的复合型序列。
因篇幅问题不能全部显示,请点此查看更多更全内容