计算机环境:Windows11Excel版本:Excel2024Minitab22
一般而言,参数估计可以分为点估计和区间估计两部分。
点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。
例如:
虽然在重复抽样条件下,点估计的均值可望等于总体真值,但在用点估计代表总体参数值的同时,还必须给出点估计值的可靠性——即点估计值与总体参数真值的接近程度,这个时候就需要区间估计。
区间估计是依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。
与点估计不同,进行区间估计时,可根据样本统计量的抽样分布,对样本统计量与总体参数的接近程度给出一个概率度量。
在区间估计中:
当样本量给定时,置信区间的宽度随着置信系数的增大而增大(区间越宽,包含参数真值的可能性越大);当置信水平固定时,置信区间的宽度随样本量的增大而减小(大样本比小样本能提供更多关于总体的信息)。
在对总体均值进行区间估计时,需要考虑总体是否为正态分布、总体方差是否已知、用于构造估计量的样本是大样本还是小样本等几种情况。
当总体服从正态分布且方差已知时,样本均值的抽样分布均为正态分布,其数学期望为总体均值,方差为。而样本均值经过标准化以后的随机变量则服从标准正态分布,即
根据式(1)可以得出总体均值所在的置信水平下的置信区间为
其中,称为置信下限,称为置信上限;是事先所确定的总体均值不包括在置信区间的概率;称为置信水平,生产中常用95%置信水平。
如果总体服从正态分布,则无论样本量如何,样本均值的抽样分布都服从正态分布。这时,只要总体方差已知,即使是在小样本的情况下,上面的方法建立总体均值的置信区间。但如果总体方差未知,而且是在小样本情况下,则需要用样本方差代替,这时,样本均值经过标准化以后的随机变量则服从自由度为的t分布,即
因此,需要采用t分布来建立总体均值的置信区间。(t-分布是钟形曲线(类正态分布)分布族的一种,它依赖于样本量,样本量n越小,其分布越宽越扁平)。
根据t分布建立的总体均值在置信水平下的置信区间为
式中,是自由度为时,t分布中右侧面积为的t值,该值可用Excel中的TINV统计函数计算t分布的临界值,其语法为TINV(,df),其中表示对应于双尾t分布的概率,df表示样本的自由度。
举例:下面以2008年某地区20户家庭年收入数据为例进行均值估计,20户家庭年收入的原始数据如图7-1所示,通过样本数据来估计该地区家庭年收入的均值。

依次计算:
手算复杂度max,当然在新版的Excel中有个函数CONFIDENCE.T ,可以直接返回t分布总体平均值的置信区间。




简直不要太简单。
如果总体服从正态分布但方差未知,或者总体并不服从正态分布,只要是在大样本条件下,就可以用样本方差代替式1中的总体方差,这时总体均值在置信水平下的置信区间为
总体方差已知情况下的估计计算方式相同。
下面以某省34个地区人口的男女性别比为例创建一个数据,对其进行均值估计。34个地区人口的男女性别比的原始数据如图所示,数据中包含“男女性别比”一个变量,我们通过这34个地区男女性别比来估计该省总体男女性别比的均值。

仍然使用Excel进行手算(上部分)与Excel的CONFIDENCE.NORM函数进行计算(下部分)。



设两个总体的均值分别为和,从两个总体中分别抽取样本量为和的两个随机样本,其样本均值分别为和。估计两个总体均值之差的估计量显然是两个样本的均值之差。
当两个总体都服从正态分布或两个总体不服从正态分布但两个样本都为大样本时,根据抽样分布的知识可知,两个样本均值之差的抽样分布服从期望值为,方差为的正态分布,而两个样本均值之差经标准化后服从标准正态分布,即
当两个总体的方差和都已知时,两个总体均值之差在置信水平下的置信区间为
当两个总体的方差和未知时,可用两个样本方差和来代替,这时,两个总体均值之差在置信水平下的置信区间为
(1)当两个总体的方差和未知但相等时需要用两个样本的方差和来估计,这时需要计算总体方差的合并估计量,计算公式为
两个样本均值之差经标准化后服从自由度为的t分布,即
因此两个总体均值之差在置信水平下的置信区间为
(2)当两个总体的方差和未知且不相等时,只要两个总体都服从正态分布,而且两个样本的样本量相等,则两个总体均值之差在置信水平下的置信区间为
当两个总体的方差和未知且不相等时,而两个样本的样本量不相等,两个样本均值之差不再服从自由度为的t分布,而是仅服从自由度为的t分布,其中:
因此两个总体均值之差在置信水平下的置信区间为
在现实生活中,除了估计单个总体的均值外,我们往往还需要比较两个不同总体之间均值的差异,这时,我们就需要来估计两个总体均值之差。
这里情况有点多,举个简单的例子吧:
下面以某两个省34个地区人口的男女性别比为例创建一个数据文件,对其进行均值之差的估计。两个省男女性别比的原始数据如图所示,数据中包含“省份甲”和“省份乙”两个变量,我们通过对这两个样本的分析来估计该两个省份总体男女性别比的均值之差。

上部分是用Excel手算的:
下部分是Excel自带的分析工具,但这个双样本Z检验,没有算出来置信区间(不会启用数据分析库的参考Excel中使用数据分析工具进行描述统计分析):


Minitab没有这个,可以用Minitab宏(私信'1026'获取):

指定宏位置:
选择文件 > 选项 > 常规。在宏位置下



勾选打开命令行工具

运行这个命令,%TWOZTEST C1 C2 0.33 0.318 其中0.33与0.318为样本标准差。

与我们用Excel手算的置信区间一致。