下一章 上一章 目录 设置
5、第 5 章 ...
-
总体分布及其特征
总体分布:总体关于某个变量的频率分布
反映总体分布特征的指标叫总体参数,用Sita表示
常用的总体参数有两个:1.总体均值;2.总体方差或标准差
特殊情况:两类变量PQ的那种,总体均值也称为总体比例或总体成数
样本分布及其特征
样本中所有个体关于某个变量(标志)的取值所形成的分布
样本容量n很大,或者当n逐渐增大时,样本分布会接近总体分布
如果n很小,或者抽样方式不合理,样本分布就可能与总体分布相差很大
反映样本分特征的指标-->样本统计量T
常见的样本统计量:样本均值和样本方差
对于非变量:Xp一把表示样本均值,Sp平方表示样本方差
Xp一把=p
Sp平方=pq
Xp一把也称样本比例或样本成数
由于抽样的随机性,样本统计量随样本不同而不同,不是唯一确定的
样本统计量T是随机变量
以T或者以T为依据构造的其他量来反映Sita只是一种估计,会存在误差。抽样估计,就是要以可知但非唯一的样本统计值去估计唯一却未知的总体参数的值(会考)
抽样分布及其特征
抽样分布:样本统计量的概率分布,由样本统计量的所有可能取值和与之对应的概率所组成
样本分布是关于样本观测的分布,抽样分布是关于样本统计值的分布
抽样分布是从容量为N的总体中抽取容量为n的样本时,所有可能的样本统计值所形成的分布
取决于五个因素:
1.总体分布:总体分布不同-->抽样分布也不同。总体分布越集中(总体方差越小)-->抽样分布也越集中
2.样本容量:决定抽样分布最直接最有效的因素。容量越大抽样分布越集中
3.抽样方法:重复抽样or非重复抽样,考虑样本单位抽取顺序or不考虑样本单位抽取顺序,等概率or不等概率抽取的抽样分布都不一样
4.抽样组织形式:对于同一总体,相同的样本容量和抽样方法,不同的抽样组织形式会有不同的样本结构和样本个数,因而有不同的抽样分布
5.估计量构造:比率估计量和回归估计量。估计量构造不同,抽样分布就不同
抽样分布形式:样本均值的抽样分布和样本成数的抽样分布
抽样分布特征:不论重复or非重复抽样,样本成数的均值都是0.6,但是重复抽样的方差较大
抽样分布方差的大小代表抽样分布离散程度的强弱。方差越小,抽样分布越集中
样本均值的抽样分布定理
1.正态分布的再生定理
重复抽样:方差V(x一把)=S方/n
有限总体且不重复抽样:方差V(x一把)=(N-n)S方/Nn
标准化统计量服从数学期望值为0,方差为1的标准正态分布
2.中心极限定理
n足够大时(大于等于30or50)样本均值x一把的分布也趋于正态分布
3.t分布定理
当正态总体的方差未知且n较小,或任一方差为S方的总体但n较小,则样本均值x一把的分布服从自由度为n-1的t分布。t分布曲线与正态分布相近,期望相同
样本成数的抽样分布定理
1.二项分式定理
重复抽取(抽完放回)
pi(n1)=C上n1下n Pn1次 Q(n-n1)次
2.超几何分布定理
随机不重复(抽完不放回)
pi(n1,n0 | N1,N0)=C上n1下N1 C上n0下N0/C上n下N
当N无限增大时,超几何分布趋向于二项分布
3.中心极限定理
从任一数学期望为P,方差为P(1-P)的是非变量总体中随机抽取容量足够大的样本(一般要求同时nP>5,nQ大于5),则样本成数p的分布趋于服从数学期望为P,方差为V(p)=P(1-P)/n (重复抽样时),或数学期望为P,方差为V(p)=(N-n)P(1-P)/Nn (不重复抽样时)的正态分布。
正态分布是二项分布与超几何分布的极限形式
随着试验次数增加,二项分布越来越近于正态分布,三者在极限方面实现统一
抽样误差
总误差分为抽样误差和非抽样误差
抽样误差是一种偶然性误差,由抽样的非全面性和随机性所引起,抽样估计值随样本不同所造成的误差
偶然性误差特点:随着样本容量的增大而变小
非抽样误差:由随机抽样的偶然性因素以外的原因所引起的误差
当抽样误差超过一定程度时,抽样估计结果会于实际情况严重不符,就会失去意义
总误差的平方=抽样误差的平方+非抽样误差的平方
抽样误差的表现形式
抽样实际误差,抽样标准误(平均误),抽样极限误差
1.抽样实际误差
样本估计值与总体参数值之间的离差
2.抽样标准误
核心指标
抽样分布或样本统计量的标准差,抽样分布方差的平方根
各估计值的实际误差越大,抽样标准误也越大
抽样标准误可以反映样本代表性的高低:抽样标准误大-->抽样分布越离散
抽样标准误能衡量抽样误差大小的一般水平
3.抽样极限误差
抽样估计所允许的最大误差范围
估计量所允许的最高值或最低值与总体参数值之间的绝对离差
取决于两个因素:1.抽样标准误,抽样分布的标准差,抽样标准误越大,抽样极限误差也越大。2.抽样概率保证程度,置信水平,(1-alpha),alpha是显著性水平
正态分布下,抽样概率度用Zalpha/2表示,德尔塔=Zalpha/2 SE(Sita带一个倒v的上标)
在一定的概率保证下,要提高抽样估计精度,必须缩小抽样极限误差,就必须通过抽样设计来降低抽样标准误
估计量的评价标准
无偏性,一致性,有效性,充分性
1.无偏性
估计量(Sita倒v)的数学期望等于总体参数Sita
2.一致性
估计误差会随着样本容量的增大而减少
3.有效性
优良估计量的抽样分布方差小于其他估计量的方差
4.充分性
估计量提取了样本中包含的有关总体参数的全部信息,以样本估计总体时,估计量的构造能最大限度减少有关总体信息的损失
点估计
能给出明确的值
区间估计
具有一定可靠程度的区间范围来估计总体参数
它不指出被估计参数的确定数值,而是在一定的概率保证下指出被估计参数的可能范围
若概率1-alpha增大,估计区间会拉长,估计精度下降
概率1-alpha是所有可能样本所给出的估计区间中包含总体参数Sita在内的估计区间出现的频率
简单随机抽样
总体均值x一把
SE(x一把)=根号下(S平方/n)
不重复抽样,根号下再乘(1-f),f=n/N,抽样比,有限总体校正系数。当f<5%时,根号(1-f)约等于1,可忽略
总体成数P
SE(p)=根号下((N-n)P(1-P)/Nn)(不重复抽样)
样本容量n的确定
取决于总体分布方差,对抽样精度和可靠程度的要求,抽样方法和调查经费等
n不重=n重/(1+n重/N)
其他复杂一点的抽样不考
作者有话要说: 好好好...饿死啦孩子要干饭...嗷呜一大口...吸溜...娘姆娘姆...
虽然但是强迫症反复从第一章开始复习,进度实在感人