avatar

Catalog
为什么样本方差要除以n-1?

版权声明:本文为CSDN博主「Hearthougan」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/Hearthougan/article/details/77859173

转载作为学习笔记


设样本均值为$\overline{X}$,样本方差为$S^2$,总体均值为$\mu$,总体方差为$\sigma^2$,那么样本方差有如下公式:

20170905232955708

很多人可能都会有疑问,为什么要除以$n-1$,而不是$n$,但是翻阅资料,发现很多都是交代到,如果除以$n$,对样本方差的估计不是无偏估计,比总体方差要小,要想是无偏估计就要调小分母,所以除以$n-1$,那么问题来了,为什么不是除以$n-2$、$n-3$等等。所以在这里彻底总结一下,首先交代一下无偏估计。

无偏估计

以例子来说明,假如你想知道一所大学里学生的平均身高是多少,一个大学好几万人,全部统计有点不现实,但是你可以先随机挑选100个人,统计他们的身高,然后计算出他们的平均值,记为$\overline X_1$。如果你只是把$\overline X_1$作为整体的身高平均值,误差肯定很大,因为你再随机挑选出100个人,身高平均值很可能就跟刚才计算的不同,为了使得统计结果更加精确,你需要多抽取几次,然后分别计算出他们的平均值,分别记为:$\overline X_1\overline X_3$$\overline X_k$,然后在把这些平均值,再做平均,记为:$E(\overline X)$,这样的结果肯定比只计算一次更加精确,随着重复抽取的次数增多,这个期望值会越来越接近总体均值$\mu$,如果满足$E(\overline X)=\mu$,这就是一个无偏估计,其中统计的样本均值也是一个随机变量,$\overline X_i$就是$\overline X$的一个取值。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。

介绍无偏估计的意义就是,我们计算的样本方差,希望它是总体方差的一个无偏估计,那么假如我们的样本方差是如下形式:

20170905233050202

那么,我们根据无偏估计的定义可得:

20170905233442186

20170905233618683

由上式可以看出如果除以$n$,那么样本方差比总体方差的值偏小,那么该怎么修正,使得样本方差式总体方差的无偏估计呢?我们接着上式继续化简(其中Var()函数代表求方差variance):

20170905235049219

到这里得到如下式子,看到了什么?该怎修正似乎有点眉目。

20170905235354241

如果让我们假设的样本方差$S^2$乘以$n\over n-1$,即修正成如下形式,是不是可以得到样本方差是总体方差$ \sigma^2$的无偏估计呢?

20170906000129602

则:

20170906000513463

因此修正之后的样本方差的期望是总体方差的一个无偏估计,这就是为什么分母为何要除以n-1。


计算方差的三个公式

  • $ \sigma ^2 =E[(X-\mu)^2]$
  • $ S ^2 ={1\over n}\sum_{i=1}^n(X_i-\mu)^2$
  • $ S ^2 ={1\over n-1}\sum_{i=1}^n(X_i-\overline X)^2$

因为$\overline X$是由$X_i$计算出来的,所以$(X_i-\overline X)$显然会小于$(X_i-\mu)^2$,所以要除以较小的数。

Author: realLiuSir
Link: http://yoursite.com/2020/02/24/%E4%B8%BA%E4%BB%80%E4%B9%88%E6%A0%B7%E6%9C%AC%E6%96%B9%E5%B7%AE%E8%A6%81%E9%99%A4%E4%BB%A5n-1%EF%BC%9F/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
Donate
  • 微信
    微信
  • 支付寶
    支付寶