agentmentoragentmentor

第 02 节:把“散”压成一个数:方差与标准差

本节 objectives:

  • 能按步骤手算一组数据的方差和标准差
  • 能解释为什么先平方偏差、最后再开方
  • 能用标准差描述“典型地离平均数多远”

先修: 平均数、离散程度 | 上一节: << 01 | 下一节: 03 >>

离平均数的距离不能直接相加

如果一组数据围着平均数左右摆动,低于平均数的偏差是负数,高于平均数的偏差是正数。直接把偏差相加,常常会互相抵消成 0。方差的做法是先把每个偏差平方,再取平均;标准差再把方差开方,回到原数据的单位12

讲解

方差:平方后的平均偏差

以总体数据为例,方差的步骤是:

  1. 求平均数。
  2. 每个数减平均数,得到偏差。
  3. 每个偏差平方。
  4. 把平方偏差取平均。

平方有两个作用:负偏差不再抵消正偏差;离中心越远的点权重更大1

标准差:把单位拿回来

如果数据单位是“分钟”,方差的单位会变成“平方分钟”。标准差是方差的平方根,所以单位回到“分钟”。因此标准差更适合口头解释:一个典型观测值大约离平均数多少个原单位2

标准差不是“最大偏差”

标准差不是最大值离平均数的距离,也不是所有距离的普通平均。它是经过平方、平均、开方后的代表性离散尺度。

跟我做一遍(worked example)

题目:把 8, 9, 10, 11, 12 当作一个完整总体,求总体方差和总体标准差。

  1. 平均数:(8 + 9 + 10 + 11 + 12) / 5 = 10
  2. 偏差:-2, -1, 0, 1, 2
  3. 平方偏差:4, 1, 0, 1, 4
  4. 方差:(4 + 1 + 0 + 1 + 4) / 5 = 2
  5. 标准差:sqrt(2) ≈ 1.41

解释:这组数的典型离散尺度约为 1.41 个单位。它不是说每个数都离平均数 1.41,而是说整组数据的散开程度可以用这个数字概括。

换你补全(faded example)

6, 8, 10, 12, 14 当作完整总体,补全表格。

步骤结果
平均数____
偏差____, ____, ____, ____, ____
平方偏差____, ____, ____, ____, ____
总体方差____
总体标准差____

答案:平均数 10;偏差 -4、-2、0、2、4;平方偏差 16、4、0、4、16;方差 40/5 = 8;标准差 sqrt(8) ≈ 2.83

小结 + 通向下一节

方差把离平均数的偏差平方后平均;标准差再开方,成为更容易解释的离散尺度。下一节处理一个细节:如果你手上的只是样本,而不是完整总体,分母会变。

Footnotes

  1. Khan Academy: Variance and standard deviation of a population — https://www.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/variance-standard-deviation-population/a/population-standard-deviation 2

  2. OpenStax Introductory Statistics 2e: Standard Deviation in Measures of the Spread — https://openstax.org/books/introductory-statistics-2e/pages/2-7-measures-of-the-spread-of-the-data 2

练习

练习 · Level 1:照步骤算

用纸笔计算 2, 4, 4, 4, 5, 5, 7, 9 的总体标准差。这个经典例子的平均数是 5,方差是 4,标准差是 2[^S2]。

提示 1

先列三行:原数据、偏差、偏差平方。

自评
练习 · Level 2:解释公式而不是背公式

用两句话解释:为什么方差要平方?为什么标准差还要开方?

提示 1

把“分钟”和“平方分钟”当例子。

看参考答案

平方避免正负偏差抵消,并强调远离平均数的点;开方把尺度带回原单位,使解释更自然。