第 02 节:把“散”压成一个数:方差与标准差
本节 objectives:
- 能按步骤手算一组数据的方差和标准差
- 能解释为什么先平方偏差、最后再开方
- 能用标准差描述“典型地离平均数多远”
离平均数的距离不能直接相加
如果一组数据围着平均数左右摆动,低于平均数的偏差是负数,高于平均数的偏差是正数。直接把偏差相加,常常会互相抵消成 0。方差的做法是先把每个偏差平方,再取平均;标准差再把方差开方,回到原数据的单位12。
讲解
方差:平方后的平均偏差
以总体数据为例,方差的步骤是:
- 求平均数。
- 每个数减平均数,得到偏差。
- 每个偏差平方。
- 把平方偏差取平均。
平方有两个作用:负偏差不再抵消正偏差;离中心越远的点权重更大1。
标准差:把单位拿回来
如果数据单位是“分钟”,方差的单位会变成“平方分钟”。标准差是方差的平方根,所以单位回到“分钟”。因此标准差更适合口头解释:一个典型观测值大约离平均数多少个原单位2。
标准差不是“最大偏差”
标准差不是最大值离平均数的距离,也不是所有距离的普通平均。它是经过平方、平均、开方后的代表性离散尺度。
跟我做一遍(worked example)
题目:把 8, 9, 10, 11, 12 当作一个完整总体,求总体方差和总体标准差。
- 平均数:
(8 + 9 + 10 + 11 + 12) / 5 = 10。 - 偏差:
-2, -1, 0, 1, 2。 - 平方偏差:
4, 1, 0, 1, 4。 - 方差:
(4 + 1 + 0 + 1 + 4) / 5 = 2。 - 标准差:
sqrt(2) ≈ 1.41。
解释:这组数的典型离散尺度约为 1.41 个单位。它不是说每个数都离平均数 1.41,而是说整组数据的散开程度可以用这个数字概括。
换你补全(faded example)
把 6, 8, 10, 12, 14 当作完整总体,补全表格。
答案:平均数 10;偏差 -4、-2、0、2、4;平方偏差 16、4、0、4、16;方差 40/5 = 8;标准差 sqrt(8) ≈ 2.83。
小结 + 通向下一节
方差把离平均数的偏差平方后平均;标准差再开方,成为更容易解释的离散尺度。下一节处理一个细节:如果你手上的只是样本,而不是完整总体,分母会变。
Footnotes
-
Khan Academy: Variance and standard deviation of a population — https://www.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/variance-standard-deviation-population/a/population-standard-deviation ↩ ↩2
-
OpenStax Introductory Statistics 2e: Standard Deviation in Measures of the Spread — https://openstax.org/books/introductory-statistics-2e/pages/2-7-measures-of-the-spread-of-the-data ↩ ↩2
练习
用纸笔计算 2, 4, 4, 4, 5, 5, 7, 9 的总体标准差。这个经典例子的平均数是 5,方差是 4,标准差是 2[^S2]。
提示 1
先列三行:原数据、偏差、偏差平方。
用两句话解释:为什么方差要平方?为什么标准差还要开方?
提示 1
把“分钟”和“平方分钟”当例子。
看参考答案
平方避免正负偏差抵消,并强调远离平均数的点;开方把尺度带回原单位,使解释更自然。